在分布式存储技术体系当中,分布式文件存储是其中的分类之一,也是大数据架构当中常常用到的。得益于hadoop的高人气,hadoop原生的hdfs分布式文件系统,也广泛为人所知。但是分布式文件存储系统,并非只有hdfs。今天的大数据开发分享,我们就主要来讲讲常见的分布式文件存储系统。
分布式文件系统,可以说是分布式系统下的一个子集,这里我们选取市场应用比较广泛的几款产品,hdfs、ceph、fastdfs以及moosefs来做简单的分析——
hdfs
如上所说,hdfs是分布式文件系统当中人气非常高的一个。基于hadoop基础架构,hdfs天然就有很好的优势,尤其是面对大规模离线批处理任务,地位难以撼动。
hdfs,可以为各类分布式计算框架如spark、mapreduce等提供海量数据存储服务,同时hbase、hive底层存储也依赖于hdfs。与hadoop生态的紧密联系,也使其稳稳占据市场主流地位。
优点:
高容错性:数据自动保存多个副本,副本丢失后,自动恢复
适合批处理:移动计算而非数据。数据位置暴露给计算框架
适合大数据处理:gb,tb,甚至pb级数据。百万规模以上文件数量。10k+节点规模。
流式文件访问:一次性写入,多次读取。保证数据一致性。
可构建在廉价机器上:通过多副本提高可靠性。提供容错和恢复机制。
缺点:
不适合低延迟数据访问场景:比如毫秒级,低延迟与高吞吐率
不适合小文件存取场景:占用namenode大量内存。寻道时间超过读取时间。
不适合并发写入,文件随机修改场景:一个文件只能有一个写者。仅支持append
不符合posix语义,需要通过sdk来读写操作。对java支持良好,其他语言一般
ceph
企业级的存储需求,通常分为块存储、文件存储和对象存储,而ceph能够同时满足这三种需求。ceph提供三大存储接口,能够将企业中的三种存储需求统一汇总到一个存储系统中,并提供分布式、横向扩展,高度可靠性的存储,具备高可用性、高性能及可扩展等特点。
优点:
支持对象存储(osd)集群,通过crush算法,完成文件动态定位,处理效率更高
符合posix语义,支持通过fuse方式挂载,降低客户端的开发成本,通用性高
支持分布式的mds/mon,无单点故障
强大的容错处理和自愈能力
支持在线扩容和冗余备份,增强系统的可靠性
缺点:
目前处于试验阶段,系统稳定性有待考究
部署和运维较复杂,集群管理工具较少
fastdfs
fastdfs是以c语言开发的一项开源轻量级分布式文件系统,提供文件存储、文件同步、文件访问(文件上传/下载)等通用文件管理操作,尤其适合以文件为载体的在线服务,如图片网站,视频网站等。追求高性能和高扩展性fastdfs,可以看做是基于文件的key value pair存储系统,称作分布式文件存储服务更为合适。
优点:
支持在线扩容机制,增强系统的可扩展性
实现了软raid,增强系统的并发处理能力及数据容错恢复能力
支持主从文件,支持自定义扩展名
主备tracker服务,增强系统的可用性
缺点:
不支持posix通用接口访问,通用性较低
对跨公网的文件同步,存在较大延迟,需要应用做相应的容错策略
同步机制不支持文件正确性校验,降低了系统的可用性
通过api下载,存在单点的性能瓶颈
moosefs
moosefs是在hdfs之后出现的,它也是类似的mds+oss架构,区别于hdfs的是,moosefs没有对运行其上的业务做假设,它没有假设业务是大文件或海量小文件,也就是说,moosefs的定位是像ext4、xfs、ntfs等单机文件系统一样的通用型文件存储。
优点:
扩容成本低、支持在线扩容,不影响业务,体系架构可伸缩性极强
支持posix通用接口访问,支持通过fuse方式挂载,降低客户端的开发成本,通用性高
文件对象高可用,可设置任意的文件冗余程度(提供比raid 10更高的冗余级别)
提供系统负载,将数据读写分配到所有的服务器上,加速读写性能
实现了软raid,增强系统的并发处理能力及数据容错恢复能力
数据恢复比较容易,增强系统的可用性。有回收站功能,方便业务定制
缺点:
master server的单点解决方案的健壮性。master server一旦出问题metalogger server可以恢复升级为master server,但是需要恢复时间
master server本身的性能瓶颈。mfs的主备架构情况类似于mysql的主从复制,从可以扩展,主却不容易扩展
随着mfs体系架构中存储文件的总数上升,master server对内存的需求量会不断增大
华为畅享6s评测:稍微强一点的华为畅享6
福特研发激光雷达测距传感提升驾车安全
分布式存储IPFS和Filecoin的基本逻辑分析
三星note7港版售价公布 国行发布时间已确定
基于OFDR重构框架分布式形状传感误差模型研究
常见的分布式文件存储系统的优缺点
高度集成µPMIC MAX8893处理器的功能及在多媒体设备中的应用
硕科MES系统为智能制造赋能
AI在肿瘤学领域发挥着最大作用的五个领域
OPPO开发者大会2021直播入口 主会嘉宾有哪些
领芯微携家居类电机应用方案破解两大行业难题
LED应用技术发展中十大热点论述
无人机对于石化管理的升级作用显著 应用范围正在不断扩大
RF功率控制电路的电压级设定
Android恶意软件Fakesky使用虚假消息监视您
走出燃气灶省气误区的方法
一加8Pro上手评测,是槽点还是亮点
人工智能技术驱动的片上系统(SoC)如何快速的开发详细资料概述
大疆Vehicle专利曝光,是一辆装有摄像头的机动漫游车
超声波物位变送器的工作原理及设计