云计算之分布式文件系统

时间:14-07-10 栏目:云计算 作者:爱说云网 评论:0 点击: 1,689 次

云计算的分布式文件系统(如Google的GFS)是整个云计算的基石,提供上层表格系统所需的可靠和高效的数据存储,假设是:

        容错与自动故障恢复是DNA

整个文件系统由许多廉价计算机组成,机器故障是常事而非例外,系统需要不停地进行自我检测和监控,发现故障机器并自动恢复;

        系统存储大文件而非小文件

整个文件系统存储数百万数千万的100MB或更大尺寸的文件,而不是数十亿的KB尺寸小文件,支持对小文件的创建、读写,但不高效;

        文件的主要修改是追加

文件系统支持高效的大尺寸数据追加,特别是来自多个用户的无锁并发追加,小尺寸的数据追加和数据的改写也支持,但不高效;

        高效的大尺寸顺序读

大尺寸的顺序读数据十分高效,小尺寸随机读相对比较低效;

        持续可用的网络带宽比低的单次读写延时更加重要

多数上层应用程序对数据吞吐量有较高的要求,但对单次读写时间没有很高的要求。保持持续可用的网络带宽比保证每次读写的低延时有更大的意义。

 

在云计算的分布式文件系统中,数据被分成固定大小的块,即chunk(在GFS中是64MB)。由于可靠性和性能的需求,每个chunk在系统中有若干份拷贝(缺省是3份),保存在不同的worker上。此外,这3份拷贝通所在的worker通常位于不同的机架和不同的网络交换机,因此一个机架或交换机故障不会导致数据不可用。把多个拷贝分布到不同交换机上进一步提高了数据读出的可用网络带宽,增加了数据读出的性能,但却增加了写入时在不同交换机之间传输的数据量,增加了写入成本,由于数据的读远远多于对数据的写,这种做法提高了系统的总体性能。

 

与云计算架构的其他子系统一样,云计算的分布式文件系统采用了“单一master+多个worker”的结构,其中worker保存chunk数据的拷贝,master保存了文件和目录的名字空间、文件到chunk的映射、当前worker列表、chunk拷贝在当前worker上的分布等。此外,master还记录了worker的chunk数据大小、可用磁盘空间、数据读写次数等,并在必要的时候进行chunk迁移以便实现负载的相对平衡。

 

云计算的分布式文件系统还提供了客户端库,应用程序通过客户端库访问文件数据。例如,当客户端需要读出一个文件从某个位置开始的数据时,客户端库通过询问master获得该文件的指定位置所在的chunk以及该chunk所在的worker列表,客户端库再向其中的一个worker(通常是离该客户端网络距离最近的worker)发起读chunk(指定的偏移值和指定的长度)的请求,worker读出指定的数据后返回给客户端库,客户端库再返回给应用程序。

 

以上对云计算的分布式文件系统做了一个大致描述,后续文章还有更多的叙述。

相关文章

IBM推出新一代的数据云服务,帮助企业“多知先觉”...
views 1636
IBM公司近期宣布推出新一代的基于IBM云的数据服务,从而确保企业和组织机构中可以更为便捷地应用更为可靠的信息。 在大数据无处不在的世界里,随时获取和利用洞察力意味着比对手获得更大的竞争优势。如今,“在分析领域上每投入1美金,将得到13.01美金的回报”,这相比3年前提高了1.2倍 。一些新的基于云...
【新闻晨报】互联网巨头为什么突然盯上了免费WiFi?...
views 1640
中云网每天精选各科技媒体头条! 1.腾讯科技 印度互联网创业大热:会出现“下一个苹果”? http://tech.qq.com/a/20141219/009694.htm 印度已经俨然成为科技巨头的掘金圣地。 本周三,印度最大的买房租房网站Housing.com宣布融资9000万美元,由日本软银领投...
该用开源PaaS还是专有PaaS?两条标准帮你选择...
views 1742
如果您的企业的工作团队想在PaaS上开发、测试及部署应用程序,但却很难在开源PaaS或专有PaaS之间作出选择。预算是影响你选择办公工具和PaaS的一大因素。 开源PaaS是免费的。它是用广大开发人员和用户组成的社区贡献的代码构建而成的,例子包括Cloudify、Cloud Foundry、Ope...
老牌科技IT公司云计算的冰火两重天
views 1879
本文列举的几个值得关注的事件,生动地说明了老牌科技IT公司在向云服务转型时面临的困难、两家大公司IBM和惠普(HP)在这方面的处境,以及Salesforce.com等“以云为本”的公司所具备的颠覆性力量。像计量工具一般进行交付和使用的各种云服务,对IBM和其他老牌科技公司的生存构成了威胁。这些公司的...
向云中的迁移比预想顺利,我们该感谢什么...
views 1814
在过去的2014年,云计算对大家不再陌生,而且它仍然在快速发展。我们会发现,云服务已经成为IT“新常态”的一部分。在云中部署业务,进行得似乎比我们想象的顺利得多。 公有云在系统运行方面表现良好 尽管在2014年, 微软Azure、Amazon Web Services及一些公司的云服务出现过故障,...
走好企业信息化战略第一步的5个关键点是什么?...
views 1804
众所周知,企业在日常工作中离不开各种信息工具,诸如:电话、邮件、文档、公告、即时通讯、视频、备忘、审批、日志、计划、任务/项目管理等等项目。然而很多时候使用的工具越多不仅不会方便沟通,却会导致工作流程复杂化,又会分散员工的精力和注意力,从而使工作效率大大降低。 宜疏不宜堵:您相信成功会有捷径吗? 根...
我们为什么爱EC2和S3却彻底抛弃EBS?
views 2679
awe.sm从创立之初就采用了AWS平台,过去3年我们体验了AWS的优美和不足,并总结出一套最佳实践。 不夸张的说,AWS彻底改变了科技创业公司的经济运行模式。没有人意识到有多少公司正在使用AWS的EC2,直到它发生宕机“真相”才浮出水面。每个人使用AWS都可以从根本上实现非常简单的运行软件的方式,...
OpenStack私有云DR的益处比其TCO更显而易见...
views 1701
 更好的DR对于使用OpenStack的机构来说是不无益处的,但其具体的投资回报确难以准确的传达给业务部门。 灾难恢复就像保险—也许它不是一个好的投资直到出了问题。 IT专家们看到对于灾难恢复(DR)的需求,并且很多人因为这个原因而使用OpenStack私有云。但是DR投资回报(ROI)的模糊不清使...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 云计算之分布式文件系统

云计算之分布式文件系统:等您坐沙发呢!

发表评论


读者排行