云计算之分布式文件系统

时间:14-07-10 栏目:云计算 作者:爱说云网 评论:0 点击: 1,748 次

云计算的分布式文件系统(如Google的GFS)是整个云计算的基石,提供上层表格系统所需的可靠和高效的数据存储,假设是:

        容错与自动故障恢复是DNA

整个文件系统由许多廉价计算机组成,机器故障是常事而非例外,系统需要不停地进行自我检测和监控,发现故障机器并自动恢复;

        系统存储大文件而非小文件

整个文件系统存储数百万数千万的100MB或更大尺寸的文件,而不是数十亿的KB尺寸小文件,支持对小文件的创建、读写,但不高效;

        文件的主要修改是追加

文件系统支持高效的大尺寸数据追加,特别是来自多个用户的无锁并发追加,小尺寸的数据追加和数据的改写也支持,但不高效;

        高效的大尺寸顺序读

大尺寸的顺序读数据十分高效,小尺寸随机读相对比较低效;

        持续可用的网络带宽比低的单次读写延时更加重要

多数上层应用程序对数据吞吐量有较高的要求,但对单次读写时间没有很高的要求。保持持续可用的网络带宽比保证每次读写的低延时有更大的意义。

 

在云计算的分布式文件系统中,数据被分成固定大小的块,即chunk(在GFS中是64MB)。由于可靠性和性能的需求,每个chunk在系统中有若干份拷贝(缺省是3份),保存在不同的worker上。此外,这3份拷贝通所在的worker通常位于不同的机架和不同的网络交换机,因此一个机架或交换机故障不会导致数据不可用。把多个拷贝分布到不同交换机上进一步提高了数据读出的可用网络带宽,增加了数据读出的性能,但却增加了写入时在不同交换机之间传输的数据量,增加了写入成本,由于数据的读远远多于对数据的写,这种做法提高了系统的总体性能。

 

与云计算架构的其他子系统一样,云计算的分布式文件系统采用了“单一master+多个worker”的结构,其中worker保存chunk数据的拷贝,master保存了文件和目录的名字空间、文件到chunk的映射、当前worker列表、chunk拷贝在当前worker上的分布等。此外,master还记录了worker的chunk数据大小、可用磁盘空间、数据读写次数等,并在必要的时候进行chunk迁移以便实现负载的相对平衡。

 

云计算的分布式文件系统还提供了客户端库,应用程序通过客户端库访问文件数据。例如,当客户端需要读出一个文件从某个位置开始的数据时,客户端库通过询问master获得该文件的指定位置所在的chunk以及该chunk所在的worker列表,客户端库再向其中的一个worker(通常是离该客户端网络距离最近的worker)发起读chunk(指定的偏移值和指定的长度)的请求,worker读出指定的数据后返回给客户端库,客户端库再返回给应用程序。

 

以上对云计算的分布式文件系统做了一个大致描述,后续文章还有更多的叙述。

相关文章

2014年云数据安全技巧回顾 云计算
views 1845
现在,云计算可谓是IT界的宠儿,但安全方面的顾虑让它未能得到企业的青睐。本文通过对2014年五大安全技巧的回顾及介绍,希望可以帮助IT团队与这个新宠儿熟络起来。 没有人否认云计算具有的优点:灵活性、可扩展性和按使用付费,但许多人仍在争论云计算对敏感数据来说是不是一种足够安全的环境。云计算数据的安全...
云计算思想的产生
views 1856
传统模式下,企业建立一套IT系统不仅仅需要购买硬件等基础设施,还有买软件的许可证,需要专门的人员维护。当企业的规模扩大时还要继续升级各种软硬件设施以满足需要。对于企业来说,计算机等硬件和软件本身并非他们真正需要的,它们仅仅是完成工作、提供效率的工具而已。对个人来说,我们想正常使用电脑需要安装许多软件...
谷歌技术”三宝”之谷歌文件系统(GFS) — 大数据云计算时代...
views 2777
虽然"The Google File System " 是 03年发表的老文章了,但现在仍被广泛讨论,其对后来的分布式文件系统设计具有指导意义。然而,作者在设计GFS时,是基于过去很多实验观察的,并提出了 很多假设作为前提,这等于给出了一个GFS的应用场景。所以我们自己在设计分布式系统时,一定要注意...
Docker 传奇之 dotCloud
views 1573
2010年,几个大胡子年轻人在旧金山成立了一家做 PaaS 平台的公司,起名为「dotCloud」,这个名字让我想起了微软的「DotNet」。 dotCloud 主要是基于 PaaS 平台为开发者或开发商提供技术服务。什么是 PaaS 呢?PaaS 的全称是 Platform as ...
明年进入云计算商业元年 青云实现云计算最初梦想...
views 2017
近日,国内著名的基础云服务提供商青云宣布,开启2014年内第三次降价,下调公有云部分资源价格,最高降幅达到了20%。青云自2014年起正式商用后承诺每年都会进行两次资费下调,目的是为了使云计算资源成为一个可以被人们所忽略的资源消费品。就像公有云最开始被提出来时经常被人们挂在嘴边的——“使计算资源可以...
云安全技术
views 3225
“云安全(Cloud Security)”计划是网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到...
云计算在教育信息化中的应用探讨
views 2841
随着网络的不断普及。人们在日常的生活和学习中需要从Intenet上获取大量的信息。同时,随着人们网络信息素养的不断提高,也 对网络服务提出了更高的要求。Intenet每天要处理大量 随着网络的不断普及。人们在日常的生活和学习中需要从Intenet上获取大量的信息。同时,随着人们网络信息素养的不断提...
谈谈物联网和云计算的融合发展
views 2080
物联网的英文名称叫“The Internet of things”。见名知义,物联网简单地说,就是“物与物相联而形成的一个彼此互相通信的网络”。其中包含两层含义:它是基于于互联网基础上的一个网络;它有触角己经伸到任何可以通信的物体,能够彼此之间进行信息的沟通。基于此,对物联网可以这样下定义:通过射频...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 云计算之分布式文件系统

云计算之分布式文件系统:等您坐沙发呢!

发表评论


读者排行