云计算之分布式文件系统

时间:14-07-10 栏目:云计算 作者:爱说云网 评论:0 点击: 1,521 次

云计算的分布式文件系统(如Google的GFS)是整个云计算的基石,提供上层表格系统所需的可靠和高效的数据存储,假设是:

        容错与自动故障恢复是DNA

整个文件系统由许多廉价计算机组成,机器故障是常事而非例外,系统需要不停地进行自我检测和监控,发现故障机器并自动恢复;

        系统存储大文件而非小文件

整个文件系统存储数百万数千万的100MB或更大尺寸的文件,而不是数十亿的KB尺寸小文件,支持对小文件的创建、读写,但不高效;

        文件的主要修改是追加

文件系统支持高效的大尺寸数据追加,特别是来自多个用户的无锁并发追加,小尺寸的数据追加和数据的改写也支持,但不高效;

        高效的大尺寸顺序读

大尺寸的顺序读数据十分高效,小尺寸随机读相对比较低效;

        持续可用的网络带宽比低的单次读写延时更加重要

多数上层应用程序对数据吞吐量有较高的要求,但对单次读写时间没有很高的要求。保持持续可用的网络带宽比保证每次读写的低延时有更大的意义。

 

在云计算的分布式文件系统中,数据被分成固定大小的块,即chunk(在GFS中是64MB)。由于可靠性和性能的需求,每个chunk在系统中有若干份拷贝(缺省是3份),保存在不同的worker上。此外,这3份拷贝通所在的worker通常位于不同的机架和不同的网络交换机,因此一个机架或交换机故障不会导致数据不可用。把多个拷贝分布到不同交换机上进一步提高了数据读出的可用网络带宽,增加了数据读出的性能,但却增加了写入时在不同交换机之间传输的数据量,增加了写入成本,由于数据的读远远多于对数据的写,这种做法提高了系统的总体性能。

 

与云计算架构的其他子系统一样,云计算的分布式文件系统采用了“单一master+多个worker”的结构,其中worker保存chunk数据的拷贝,master保存了文件和目录的名字空间、文件到chunk的映射、当前worker列表、chunk拷贝在当前worker上的分布等。此外,master还记录了worker的chunk数据大小、可用磁盘空间、数据读写次数等,并在必要的时候进行chunk迁移以便实现负载的相对平衡。

 

云计算的分布式文件系统还提供了客户端库,应用程序通过客户端库访问文件数据。例如,当客户端需要读出一个文件从某个位置开始的数据时,客户端库通过询问master获得该文件的指定位置所在的chunk以及该chunk所在的worker列表,客户端库再向其中的一个worker(通常是离该客户端网络距离最近的worker)发起读chunk(指定的偏移值和指定的长度)的请求,worker读出指定的数据后返回给客户端库,客户端库再返回给应用程序。

 

以上对云计算的分布式文件系统做了一个大致描述,后续文章还有更多的叙述。

相关文章

四款最热门的云计算产品真好云计算网向您介绍四款比较成熟而实用的云计算产品...
views 1363
四款最热门的云计算产品向您介绍四款比较成熟而实用的云计算产品。它们是:IBM蓝云、亚马逊Amazon EC2、谷歌Google App Engine、微软Windows Azure。希望对大家有所帮助。  IBM云计算:蓝云  IBM是最早向中国提供云计算服务的国际互联网企业。IBM在2007年11...
助力云环境标准运行:三种能救急的网络监控工具...
views 1893
云监控服务可以收集提供商的生态系统里面服务器、存储系统及其他服务的一系列性能数据。遗憾的是,这些工具拥有的网络监控功能常常很有限,这就意味着它们发现不了你的云环境中的严重性能问题。为了密切关注你的网络,并且发现潜在问题,应该使用成熟可靠的网络监控工具,以便跟踪并报告性能方面更深入的数据。 网络监控...
老牌科技IT公司云计算的冰火两重天
views 1702
本文列举的几个值得关注的事件,生动地说明了老牌科技IT公司在向云服务转型时面临的困难、两家大公司IBM和惠普(HP)在这方面的处境,以及Salesforce.com等“以云为本”的公司所具备的颠覆性力量。像计量工具一般进行交付和使用的各种云服务,对IBM和其他老牌科技公司的生存构成了威胁。这些公司的...
阿里云宣布入门产品免费试用半年 撼动市场格局...
views 1549
7月15日,阿里云计算宣布:云服务器、云数据库等四款核心基础产品,新用户免费试用半年后再付费。创业者不花一分钱,就能快速完成网站和应用的部署。这一投入上亿元的举措,对广大中小站长和开发者拥有巨大吸引力,将真正意义上撼动传统IT产业格局。 此次的免费试用,主要针对用户购买率最高的四款基础产品,包括云服...
基于云计算的企业信息系统实施策略
views 3164
信息化经过多年的发展已经成为企业日常工作的支撑,OA 系统、物资、财务、人力资源等信息管理系统在企业中起到的重要作用日益彰显。为此,企业根据最大数据量及计算量的需求购置了硬件、存储及相应的平台软件。这些硬件和平台能否安全可靠运行,能否做到最优的利用,除了应选用技术过硬、质量好的产品以外,还应选择合理...
中小企业如何借力云计算_软件与服务_比特网...
views 1276
云计算将改变未来工作及生活方式   “云计算实际上是一种商业模式的创新和企业需求的结合,它的发展和应用将使传统的工作和生活模式发生巨大变化。”日前,工业和信息化部软件与集成电路促进中心(CSIP)主任邱善勤博士在接受比特网采访时如是说,“云计算的发展和应用趋势已经毋庸质疑,更要紧的是,我们如何更好地...
大数据如何解决城市计算的基本框架及核心问题...
views 1796
    编者按:近年来,随着感知技术和计算环境的成熟,各种大数据在城市中悄然而生。城市计算就是用城市中的大数据来解决城市本身所面临的挑战,通过对多种异构数 据的整合、分析和挖掘,来提取知识和智能,并用智能来创造“人—环境—城市”三赢的结果。微软亚洲研究院主管研究员郑宇从城市计算的基本框架及核心问题...
云计算基础架构【图】
views 1890
  云计算不仅是技术,更是服务模式的创新。云计算之所以能够为用户带来更高的效率、灵活性和可扩展性,是基于对整个IT领域的变革,其技术和应用涉及硬件系统、软件系统、应用系统、运维管理、服务模式等各个方面。   IaaS(基础架构即服务)作为云计算的三大部分之一,将基础架构进行云化,从而更好的为应用系统...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 云计算之分布式文件系统

云计算之分布式文件系统:等您坐沙发呢!

发表评论


读者排行