11月18日,由百易传媒(doit)主办的2020中国数据与存储峰会在北京盛大开幕。众专家与行业代表同台探讨新数据时代存储技术发展趋势,分享数字化转型成果,共话智慧未来。杉岩数据cto邱尚高携“ai+数据湖时代,对象存储新未来”的主题演讲出席峰会。
邱尚高在演讲中提到,以5g、大数据、人工智能为代表的新兴技术深入行业应用,智能在“端、边、云”延伸,数据的种类和数量越来越多,企业对数据价值的诉求也更趋强烈,传统基础设施面临着前所未有的挑战。基于数据湖构建集数据汇聚、加工、分析、利用于一体的基础架构成为企业市场的重要趋势。
纵观国内,不论是公有云厂商还是私有云厂商,纷纷基于对象存储推出差异化的数据湖解决方案。对象存储凭何优势,能够成为数据湖存储底座的不二之选?在ai+数据湖时代,对象存储又迎来哪些新的场景?针对上述问题,邱尚高作了系统地阐述与分享。
为什么是对象存储?从2006年亚马逊推出公有云存储服务(amazon s3),到2012年阿里云存储服务(oss)的面世,再到2016年杉岩数据率先推出企业私有云对象存储产品(mos),对象存储因互联网而生,面对海量数据场景具备天然优势,逐渐成为大数据时代存储界的后起之秀。随着数据湖架构在企业市场中的需求越来越广泛,存储作为整个数据湖架构的核心要素,承载着企业近乎全部的数据资产。对象存储究竟有何优势,能够赢得业界青睐,成为数据湖存储底座的最佳之选?
对象存储采用弹性的分布式架构,灵活对接各类应用,可汇聚不同类型、不同大小的数据资源(包括结构化、半结构化、非结构化数据,大文件、小文件)。传统文件存储采用树形结构,文件增多,目录层级多,访问性能骤降。对象存储采用“桶-对象”的扁平化结构,通过hash计算检索文件,海量场景仍然保证高性能,轻松支撑eb级容量空间、千亿级文件规模。对象存储基于标准的s3或oss接口,实现私有云与公有云数据自由流动,以及异构存储资源纳管。
文件存储限于局域网访问且需要os挂载,对云场景支撑乏力。对象存储天然支持跨互联网访问,无需os挂载更轻量,更适应云原生应用。为了满足业务合规与敏捷性需求,越来越多的企业选择将互联网应用部署在公有云,以满足弹性、敏捷的需求;将重要数据存放到私有云,以满足安全、合规的需求。对象存储通过s3或oss接口可无缝对接公有云,快速构建混合云基础架构,在云端与本地之间实现应用平滑迁移和数据自由流动。通过以上维度对比,对象存储的优势显而易见。
对象存储将成为数据湖的数字底座
从国内外市场需求来看,国外的企业或组织更倾向于采用公有云基础设施,而国内企业则是更倾向于私有云,也因此形成了公有云数据湖和私有云数据湖两种方案,这里选取3家代表厂商进行简单介绍。作为全球公有云市场的领导者,亚马逊以对象存储(s3)作为数字底座,存储来自不同数据源的结构化、半结构化和非结构化数据,通过安全策略和访问控制保障数据安全,同时支撑数据检索查询、用户界面访问以及数据分析处理等能力。
阿里云同样是以对象存储(oss)作为数字底座,将阿里云上的日志服务、app/web、数据集成等产生的超过10000种数据文件类型保存在oss上,实现海量的数据汇聚,消除数据孤岛;同时为maxcompute、emr、机器学习等平台提供支撑,无缝对接超过100种计算引擎,赋能业务创新。
作为国内对象存储市场的领导者,杉岩数据也推出了以企业存储为基础的智能数据湖解决方案。该方案基于mos海量对象存储构建海量空间,实现数据库、非结构化文件、流数据等多源数据汇聚;通过纳管异构存储实现硬件利旧;通过高性能数据湖文件网关mosfs对接hadoop、tensorflow等分析处理平台,深化价值利用;一体化方案赋能业务创新,为智慧金融、智能制造、智慧教育等行业变革提供基础架构支撑。
ai+数据湖时代,对象存储的新场景
对于企业客户而言,贴合实际场景、解决当前痛点、满足未来就绪的方案才是好方案。邱尚高结合一些新兴的应用场景,向与会人士介绍了mos对象存储以及智能数据湖方案如何为客户创造价值。
大数据存算分离
传统大数据分析平台存在诸多弊端:hdfs多采用三副本,空间利用率低;存储与计算捆绑扩容,拉高成本;hadoop升级不够灵活,无法享受新版本计算特性。杉岩方案可提供存算分离架构,mos支持纠删码和冷热数据分层,使磁盘利用率提升80%;存储与计算独立扩容,有效降低成本;存储与计算独立升级,更加灵活。
数据智能处理
mos依托智能数据处理引擎,将数据处理能力下沉到存储系统内部。基于策略触发,mos海量对象存储可以自动完成图片转码、视频抽帧、ocr识别等处理任务,简化业务流程,提升处理效率。以智能制造为例,杉岩mos已经帮助utac(联测优特半导体)提升智能质检效率,通过生命周期管理策略设定,在mos内部完成质检图片的存储、格式转换、冷热分层和过期自动删除,节省80%存储空间,大幅降低成本并简化了业务流程。
机器学习
在mos之上通过mosfs高性能数据湖文件网关,为tensorflow等机器学习平台提供原生的hdfs接口、s3/oss对象接口、posix文件接口,满足ai算法的模型训练和推理、数据归档的需求。以自动驾驶场景为例,车辆采集的视频、雷达数据通过文件或对象接口导入mos,然后通过hdfs接口对数据预处理,预处理结果再通过文件接口由计算服务器进行ai训练和高性能仿真,从而得到新的算法和模型进行下一轮测试。整个过程中,一套存储同时在线、近线、离线使用,数据集中归档无须拷贝,空间利用率更高、数据更安全。
ipfs(inter planetary file system)
ipfs场景对底层存储的需求可归纳为几点:庞大的算力集群要求存储吞吐量在100gbps以上,以保证封装数据的写入效率;每天48次(30分钟一次)的全量证明需要极高的随机读取效率;数据持续可读(历史数据不删除)使得增量巨大(每周pb级),要求存储提供eb级以上容量;超大容量必然由超大集群支撑,高效运维也是刚需。杉岩mos除了提供eb级海量空间和300gbps以上的超大吞吐量,还专门针对ipfs数据读作性能优化,将数百次随机读请求合并为一个请求,极大提升效率;基于纠删码(22+2)技术,空间利用率超过91%,硬件成本缩减60%以上;通过多故障域隔离和智能dns分配技术,轻松管控超大规模存储集群,在提升数据可靠性的同时降低运维复杂度。
云原生olap
对海量非结构化数据的分析需求催生了云端数据湖的应用,杉岩针对云原生olap场景同样提供了解决之道,通过mos无缝对接云原生的数据湖,帮助企业快速构建高性能的olap服务。对“hdfs+传统数据仓库”而言,海量场景下的性能、并发性和易用性成为难以避免的灾难。杉岩的“mos+云原生数据仓库”方案,依托弹性架构提供更强的扩展性、高可用性和并发访问能力,在eb级海量数据面前保证优异性能,利用纠删策略、数据分层等特性尽可能降低成本,采用存算分离架构极大提升灵活性,帮助客户对海量数据极速分析,轻松把握商业趋势,及时应对各种变化。
不难看出,杉岩数据植根场景需求,已经围绕mos海量对象存储构建起了相对完善的数据湖解决方案,为企业应对数据挑战、推进业务创新提供了新的、极具竞争力的选项。
fqj
夏普手机将会在春分回归?今后将独占IGZO屏幕
人工智能与文艺的新形态是怎样的
回流焊设备常见故障及排除方法
如何用立式分布光度计来做配光曲线测试
微软元宇宙什么意思
AI+数据湖时代,对象存储不止步于存储
为什么英特尔那么牛?制程工艺引业界惊叹!
振动钩针DIY图解
业余爱好者不当使用无人机,引发迪拜机场安全担忧
种新型适用于太空的生物打印设备
一种具有高度柔性与可塑性的超香肠覆盖式神经元模型
粉碎机的常见机械故障及排除-风电大部件故障诊断
解析三种嵌入式系统控制电路设计
TC3xx芯片时钟系统的时钟源详解
芯片组的性能指标是什么
闻泰科技拟换股+现金的方式收购安世半导体79.97%的股权
比亚迪的IGBT芯片专利解析
优特电源发布功率密度领先的480WLED恒压电源
一款图形化FOFA渗透工具
预计2020年我国芯片人才缺口将超30万 芯片人才平均招聘薪资达10420元