云计算之分布式文件系统

时间:14-07-10 栏目:云计算 作者:爱说云网 评论:0 点击: 1,198 次

云计算的分布式文件系统(如Google的GFS)是整个云计算的基石,提供上层表格系统所需的可靠和高效的数据存储,假设是:

        容错与自动故障恢复是DNA

整个文件系统由许多廉价计算机组成,机器故障是常事而非例外,系统需要不停地进行自我检测和监控,发现故障机器并自动恢复;

        系统存储大文件而非小文件

整个文件系统存储数百万数千万的100MB或更大尺寸的文件,而不是数十亿的KB尺寸小文件,支持对小文件的创建、读写,但不高效;

        文件的主要修改是追加

文件系统支持高效的大尺寸数据追加,特别是来自多个用户的无锁并发追加,小尺寸的数据追加和数据的改写也支持,但不高效;

        高效的大尺寸顺序读

大尺寸的顺序读数据十分高效,小尺寸随机读相对比较低效;

        持续可用的网络带宽比低的单次读写延时更加重要

多数上层应用程序对数据吞吐量有较高的要求,但对单次读写时间没有很高的要求。保持持续可用的网络带宽比保证每次读写的低延时有更大的意义。

 

在云计算的分布式文件系统中,数据被分成固定大小的块,即chunk(在GFS中是64MB)。由于可靠性和性能的需求,每个chunk在系统中有若干份拷贝(缺省是3份),保存在不同的worker上。此外,这3份拷贝通所在的worker通常位于不同的机架和不同的网络交换机,因此一个机架或交换机故障不会导致数据不可用。把多个拷贝分布到不同交换机上进一步提高了数据读出的可用网络带宽,增加了数据读出的性能,但却增加了写入时在不同交换机之间传输的数据量,增加了写入成本,由于数据的读远远多于对数据的写,这种做法提高了系统的总体性能。

 

与云计算架构的其他子系统一样,云计算的分布式文件系统采用了“单一master+多个worker”的结构,其中worker保存chunk数据的拷贝,master保存了文件和目录的名字空间、文件到chunk的映射、当前worker列表、chunk拷贝在当前worker上的分布等。此外,master还记录了worker的chunk数据大小、可用磁盘空间、数据读写次数等,并在必要的时候进行chunk迁移以便实现负载的相对平衡。

 

云计算的分布式文件系统还提供了客户端库,应用程序通过客户端库访问文件数据。例如,当客户端需要读出一个文件从某个位置开始的数据时,客户端库通过询问master获得该文件的指定位置所在的chunk以及该chunk所在的worker列表,客户端库再向其中的一个worker(通常是离该客户端网络距离最近的worker)发起读chunk(指定的偏移值和指定的长度)的请求,worker读出指定的数据后返回给客户端库,客户端库再返回给应用程序。

 

以上对云计算的分布式文件系统做了一个大致描述,后续文章还有更多的叙述。

相关文章

助力新互联时代云转型 ThinkServer堪当重任...
views 1506
当今我们正处于一个全新的互联时代,随着云计算、大数据、社交媒体、移动互联等大趋势的影响,传统IT架构正面向新的IT架构转型。移动平台开始打破私人界限,将碎片化时间融入高效办公体系,这些不同的设备,随时随地制造若干的信息,企业数据和个人数据都呈翻倍趋势增长,不断变化的业务模式迫使企业面临新互联时代的转...
云计算让安全问题变得集中可控 关系到国家竞争力...
views 1397
云计算加快了数据的沉淀,为大数据的快速处理和分析提供了足够的计算能力,并且将计算变成一种公共服务,通过互联网输送到千家万户。 云计算的发展势头近年来日益迅猛,众多企业开始享受云计算便利的计算资源服务、大数据沉淀与挖掘带来的产业创新同时,业界也一直存在关于云服务安全方面的挑战与质疑。2013年,亚马...
GFS(Google File System)介绍 — 大数据云计算时代...
views 1484
Google文件系统(Google File System,GFS)是一个大型的分布式文件系统。它为Google云计算提供海量存储,并且与Chubby、MapReduce以及Bigtable 等技术结合十分紧密,处于所有核心技术的底层。由于GFS并不是一个开源的系统,我们仅仅能从Google公布的技...
云计算过热引起反思:投资回报率不高_...
views 1313
 云计算,一个被寄予厚望的战略性新兴产业,除得到中央政策扶植外,各云计算试点城市也在加紧推动产业发展规划,以争夺市场制高点。美通无线董事长王维嘉即表示,这是一个万亿元的大市场。不过,云计算前景看好,市场一片喧嚣之中,有些地方却将云计算搞成圈地运动,创新工场董事长李开复(微博)就公开表示,云计算在国内...
Docker入门教程:15个Docker基本命令及用法...
views 1793
本文中,我们将学习15个Docker命令以及命令的用法和功能,并通过实践学习它是如何工作的。 首先,让我们通过下面的命令来检查Docker的安装是否正确: docker info  如果没有找到此命令,则表示Docker没有正确安装。如果正确安装会输出类似下面的内容: 到这一步Docker...
2020年70%数据将存储在云端
views 1510
“一家大企业的CIO对我说,他想要休息非常简单,只需要删除任何一点点数据,他就能被解聘回家了。”   谈及存储在今天IT产业的地位,希捷科技全球市场与客户总裁RockyPimentel笑着开了这样一个玩笑。玩笑的背后,是数据价值的提升。“特别在大数据分析快速发展的背景下,商业企业都在用更多的数据去抓...
云定价模式策略解读:控制服务器散乱的成本...
views 1132
云计算方面由来已久的观念之一是,与按需服务有关的成本实在不可预测。初始成本吸引企业采用更多的服务;不过,控制不力,加上因易于部署新的服务器和服务而引起的服务器散乱,导致每月的云计算开支高得惊人。业界已引起了注意,开始提供让开支更易于预测的方案。 最流行的基础设施即服务(IaaS)是亚马逊网络服务(...
走近云计算:解密IaaS、PaaS和SaaS
views 1078
云计算让整个IT行业为之躁动,微软、IBM、亚马逊、谷歌以及其他的一些公司在这种新的运算形式上投入了数以十亿计美元的资金,它们认为这种新型的业务模式能够揭开一个新世代的序幕,这个时代代表了高响应程度、效率和高效IT服务。事实上,Gartner最近表示,云计算在IT用户2010年最关注的重要技术的榜单...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 云计算之分布式文件系统

云计算之分布式文件系统:等您坐沙发呢!

发表评论


读者排行