云计算之分布式文件系统

时间:14-07-10 栏目:云计算 作者:爱说云网 评论:0 点击: 1,307 次

云计算的分布式文件系统(如Google的GFS)是整个云计算的基石,提供上层表格系统所需的可靠和高效的数据存储,假设是:

        容错与自动故障恢复是DNA

整个文件系统由许多廉价计算机组成,机器故障是常事而非例外,系统需要不停地进行自我检测和监控,发现故障机器并自动恢复;

        系统存储大文件而非小文件

整个文件系统存储数百万数千万的100MB或更大尺寸的文件,而不是数十亿的KB尺寸小文件,支持对小文件的创建、读写,但不高效;

        文件的主要修改是追加

文件系统支持高效的大尺寸数据追加,特别是来自多个用户的无锁并发追加,小尺寸的数据追加和数据的改写也支持,但不高效;

        高效的大尺寸顺序读

大尺寸的顺序读数据十分高效,小尺寸随机读相对比较低效;

        持续可用的网络带宽比低的单次读写延时更加重要

多数上层应用程序对数据吞吐量有较高的要求,但对单次读写时间没有很高的要求。保持持续可用的网络带宽比保证每次读写的低延时有更大的意义。

 

在云计算的分布式文件系统中,数据被分成固定大小的块,即chunk(在GFS中是64MB)。由于可靠性和性能的需求,每个chunk在系统中有若干份拷贝(缺省是3份),保存在不同的worker上。此外,这3份拷贝通所在的worker通常位于不同的机架和不同的网络交换机,因此一个机架或交换机故障不会导致数据不可用。把多个拷贝分布到不同交换机上进一步提高了数据读出的可用网络带宽,增加了数据读出的性能,但却增加了写入时在不同交换机之间传输的数据量,增加了写入成本,由于数据的读远远多于对数据的写,这种做法提高了系统的总体性能。

 

与云计算架构的其他子系统一样,云计算的分布式文件系统采用了“单一master+多个worker”的结构,其中worker保存chunk数据的拷贝,master保存了文件和目录的名字空间、文件到chunk的映射、当前worker列表、chunk拷贝在当前worker上的分布等。此外,master还记录了worker的chunk数据大小、可用磁盘空间、数据读写次数等,并在必要的时候进行chunk迁移以便实现负载的相对平衡。

 

云计算的分布式文件系统还提供了客户端库,应用程序通过客户端库访问文件数据。例如,当客户端需要读出一个文件从某个位置开始的数据时,客户端库通过询问master获得该文件的指定位置所在的chunk以及该chunk所在的worker列表,客户端库再向其中的一个worker(通常是离该客户端网络距离最近的worker)发起读chunk(指定的偏移值和指定的长度)的请求,worker读出指定的数据后返回给客户端库,客户端库再返回给应用程序。

 

以上对云计算的分布式文件系统做了一个大致描述,后续文章还有更多的叙述。

相关文章

玩转云存储 后期制作巧用搜狐企业网盘...
views 1290
从热映的《撒娇女人最好命》、《太平轮》,到即将推出的《微爱之渐入佳境》。华谊兄弟三箭齐发,迎接贺岁档的到来。银幕上精彩纷呈的背后是国内外制作团队共同努力协作的结果。华谊兄弟通过引入云存储技术,巧妙的利用搜狐企业网盘高效传输、协同办公的特性,将后期制作进行分解,通过国内外不同团队间的合作,让影片的制作...
你需要一个云策略的迁移? 大多数企业并不这么认为...
views 1492
尽管绝大多数公司的希望随着时间的推移扩大他们的云基础架构,但只有14%的在受访者表示,他们有一个特定的云策略来监督它。 很多人认为云计算作为他们公司的前三大业务或IT的举措之一,但似乎不够开心,他们目前的IT团队来负责他们的云迁移项目。 这被看作是特别有趣给予其他的调查数据,显示私有,公共和混合云部...
基于云计算的协同办公解决方案需求分析...
views 1542
基于云计算的协同办公解决方案需求分析 需求概述 随着新技术的不断出现和应用,现代企业所面临的竞争也越来越大。利用n手段提升企业核心竞争力,已成为所以企业的共同选择。但是对于大多数中小企业而言,在实 施信息系统时却往往心有余而力不足。由于没有足够的n预算,我国很多中小企业没有能力实施现代化的协同办公系...
阿里云获工信部可信认证 中国“云优先”战略可期...
views 1326
工信部将于下周发布可信云认证名单,阿里云向记者证实已进入该名单。这是国内权威机构首次开展云计算领域的资质认证,也被认为是中国政府即将大规模采购云计算的前奏。此前,奥巴马提出“云优先”战略,要求美国政府在IT建设中优先采用云技术。 据悉,阿里云的云服务器ECS、云数据库RDS和云存储OSS,均已通过评...
云计算发展历史
views 1339
1983年,太阳电脑提出“网络是电脑”(“The Network is the computer”)。 2006年3月,亚马逊推出弹性计算云服务。 2006年8月9日,Google首席执行官埃里克·施密特在搜索引擎大会(SES San Jose 2006)首次提出“云计算”的概念。Google“...
从开源社区到云计算
views 1540
UNIX编程艺术讲到UNIX为何如此成功的第一个原因就是开源。当时的一些计算机大牛们,为了彼此间更好的合作,为了提高团队的效率,选择选择将源代码开放出去。在那个蛮荒的时代,因特网没有诞生,甚至最开始连TCP/IP都没有诞生,人们依赖脆弱的计算机网络进行一些文档的传输和技术上的交流。开源这件事是那些大...
1元带来的16块效应 微软合作伙伴转型云计算...
views 1273
今年,微软的一系列公有云服务正式落地中国,由世纪互联运营的Windows Azure、Office 365服务相继正式商用,而微软也正在推进着自己的转型之路。所有的业务发展都离不开生态系统中各环节的通力配合,在本地建立核心的生态伙伴变得尤为重要,在微软向云计算、移动等领域转型的过程中,微软的合作...
高性能计算解决方案_华为云服务
views 1838
华为云服务高性能计算定位 高性能计算(High Performance Computing, HPC)是IT应用的一个重要分支。科研人员、工程师为了解决复杂的科学计算、工业设计和数据分析等问题,需要超高计算能力、海量存储、高速低延迟网络等 IT资源。高性能计算是解决这些高度复杂问题的方...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 云计算之分布式文件系统

云计算之分布式文件系统:等您坐沙发呢!

发表评论


读者排行