云计算之分布式文件系统

时间:14-07-10 栏目:云计算 作者:爱说云网 评论:0 点击: 1,747 次

云计算的分布式文件系统(如Google的GFS)是整个云计算的基石,提供上层表格系统所需的可靠和高效的数据存储,假设是:

        容错与自动故障恢复是DNA

整个文件系统由许多廉价计算机组成,机器故障是常事而非例外,系统需要不停地进行自我检测和监控,发现故障机器并自动恢复;

        系统存储大文件而非小文件

整个文件系统存储数百万数千万的100MB或更大尺寸的文件,而不是数十亿的KB尺寸小文件,支持对小文件的创建、读写,但不高效;

        文件的主要修改是追加

文件系统支持高效的大尺寸数据追加,特别是来自多个用户的无锁并发追加,小尺寸的数据追加和数据的改写也支持,但不高效;

        高效的大尺寸顺序读

大尺寸的顺序读数据十分高效,小尺寸随机读相对比较低效;

        持续可用的网络带宽比低的单次读写延时更加重要

多数上层应用程序对数据吞吐量有较高的要求,但对单次读写时间没有很高的要求。保持持续可用的网络带宽比保证每次读写的低延时有更大的意义。

 

在云计算的分布式文件系统中,数据被分成固定大小的块,即chunk(在GFS中是64MB)。由于可靠性和性能的需求,每个chunk在系统中有若干份拷贝(缺省是3份),保存在不同的worker上。此外,这3份拷贝通所在的worker通常位于不同的机架和不同的网络交换机,因此一个机架或交换机故障不会导致数据不可用。把多个拷贝分布到不同交换机上进一步提高了数据读出的可用网络带宽,增加了数据读出的性能,但却增加了写入时在不同交换机之间传输的数据量,增加了写入成本,由于数据的读远远多于对数据的写,这种做法提高了系统的总体性能。

 

与云计算架构的其他子系统一样,云计算的分布式文件系统采用了“单一master+多个worker”的结构,其中worker保存chunk数据的拷贝,master保存了文件和目录的名字空间、文件到chunk的映射、当前worker列表、chunk拷贝在当前worker上的分布等。此外,master还记录了worker的chunk数据大小、可用磁盘空间、数据读写次数等,并在必要的时候进行chunk迁移以便实现负载的相对平衡。

 

云计算的分布式文件系统还提供了客户端库,应用程序通过客户端库访问文件数据。例如,当客户端需要读出一个文件从某个位置开始的数据时,客户端库通过询问master获得该文件的指定位置所在的chunk以及该chunk所在的worker列表,客户端库再向其中的一个worker(通常是离该客户端网络距离最近的worker)发起读chunk(指定的偏移值和指定的长度)的请求,worker读出指定的数据后返回给客户端库,客户端库再返回给应用程序。

 

以上对云计算的分布式文件系统做了一个大致描述,后续文章还有更多的叙述。

相关文章

云技术是如何促进IT创新的?
views 1553
 云技术的出现改变许多的东西,也革新的许多东西。传统的IT部门的工作主要是是维护处理坏掉的邮件系统、保证服务器正常运行、保证邮件的正常发送。确保老板不会因为他们的密码无效而咆哮。云计算使这种工作模式发生了翻天覆地的变化。   随着企业把部门工作转移到公有云中,上述所说日常维护之类的工作就可以转移到了...
Amazon亚马逊EC2弹性云计算的常见问题
views 7392
一般性问题 问:什么是 Amazon Elastic Compute Cloud (Amazon EC2)? Amazon Elastic Compute Cloud (Amazon EC2) 是一种 Web 服务,可在云中提供大小可调的计算容量。该服务旨在降低开发人员进行网络规...
农业云服务初创企业FarmLogs获1000万美元B轮融资...
views 1859
提供农业云服务的初创企业FarmLogs刚刚获得了 1000 万美元的 B 轮融资。 FarmLogs 2011 年成立于硅谷,是一家为农场主、农民提供农业云服务的初创企业,现总部位于密歇根安阿伯市,现有员工 20 人。该公司让用户通过 web、移动应用等录入耕作相关数据上传给平台。平台拿到数据后...
八大云管理工具如何取舍?
views 1564
云管理是很容易发生问题的,尤其是它的复杂性。但是VMware、戴尔以及其他的公司所提供的管理工具能够让你的云一帆风顺地运行。 云管理是复杂的,这一点往往会阻碍云的实施,有时候即便是具有成本效益的云服务亦是如此。从成本管理实用程序到系统运行,各种各样的云管理工具可以帮助管理人员在实际工作中减少一些困扰...
警惕云计算技术的另一方面
views 1538
云计算的分散 二十世纪最为惊人的成就之一便是计算能力的飞速扩散(而且这一傲人的成绩还一直持续到了二十一世纪),这几乎可以使任何人想要拥有计算能力的人成为“专业人士”.现在,几乎每个人都能进行图像和视频处理、发表作品、以及执行复杂的数学计算。 在现如今我们的社会越来越多的使用移动设备的情况下,消费...
案例:eBay利用MongoDB优化搜索-技术方案...
views 2164
      eBay使用MongoDB来执行众多涉及大量数据的任务。这些项目包括搜索建议,云管理、元数据存储和商品的分类等。搜索建议是其网站的一个重要特征。MongoDB的使用,为快速向用户给出建议提供了可能。 搜索建议是如何产生的?       当你开始在eBay的搜索框输入查询关键词时,输入...
企业CEO青睐云的五个原因
views 1674
今天的企业领导人正面临着艰巨的挑战:他们既要想方设法找到新的路径,以投资面向客户的创新技术与交互模式,又要权衡利弊,在剥离非生产性成本上找到平衡。 云计算是解决上述挑战、打开机遇之门的一把钥匙。凭借不断增强的性能和日益成熟可靠的模式,云计算可以在帮助CEO们获取这种微妙平衡上发挥重要作用。因为云已经...
中国电信与VMware联合发布天翼混合云服务...
views 1664
中国电信股份有限公司云计算分公司(以下简称“中国电信云公司”)今天与VMware签署合作备忘录,宣布双方将联合构建中国电信天翼混合云服务。 中国电信天翼混合云服务主要针对大型企业原有自建的数据中心发展遇到的基础设施、电力扩张困难等问题,为其搭建企业侧自建的数据中心与托管到公有云的混合资源模式,方便企...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 云计算之分布式文件系统

云计算之分布式文件系统:等您坐沙发呢!

发表评论


读者排行