大数据基础知识：分布式计算、服务器集群-

时间:14-07-09 栏目:大数据作者:爱说云网评论:0 点击: 1,774 次

本文标签：云计算应用实例 , 云计算应用领域 , 大数据 , 大数据 , 大数据分析 , 大数据处理 , 大数据时代

大数据的数据量是非常大的，都是达到了PB的级别。在这么大的数据当中，包括了结构化数据和非结构化数据。其中结构化数据包括了数字、符号等数据，非结构化数据包括了文本、图像、声音、视频等数据。这让大数据在存储和处理的过程当中就不能用传统的数据库关系去完成了。在大数据里面，最有价值的信息就在这里面，所以这个时候对于大数据的处理速度需求很高，只有这样才能在短时间里从复杂的数据当中获取到有价值的信息。在这么多的大数据里面，其中不单单包含了一些真实的数据，其中还有一部分虚假的数据参杂在里面。这也就是在大数据处理的时候需要将虚假的数据剔除掉，利用真实的数据来进行分析。

　　大数据分析(Big Data Analysis)

　　大数据，表面上看就是大量复杂的数据，这些数据本身的价值并不高，但是对这些大量复杂的数据进行分析处理后，却能从中提炼出很有价值的信息。对大数据的分析，主要分为五个方面：可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)。

　　可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式，比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表，使其能够更加容易的被普通消费者所接受和理解。

　　数据挖掘算法是大数据分析的理论核心，其本质是一组根据算法事先定义好的数学公式，将收集到的数据作为参数变量带入其中，从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析，挖掘出以前未知的两者间的联系，并利用这种联系，提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。

　　预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律，建立起科学的事件模型，通过将新的数据带入模型，就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域，用于股票预测或气象预测等。

　　语义引擎是机器学习的成果之一。过去，计算机对用户输入内容的理解仅仅停留在字符阶段，不能很好的理解输入内容的意思，因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析，让计算机从中自我学习，可以使计算机能够尽量精确的了解用户输入内容的意思，从而把握住用户的需求，提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。

　　数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性，需要将大数据中不真实的数据剔除掉，保留最准确的数据。这就需要建立有效的数据质量管理系统，分析收集到的大量复杂的数据，挑选出真实有效的数据。

大数据

　　分布式计算(Distributed Computing)

　　对于如何处理大数据，计算机科学界有两大方向：第一个方向是集中式计算，就是通过不断增加处理器的数量来增强单个计算机的计算能力，从而提高处理数据的速度。第二个方向是分布式计算，就是把一组计算机通过网络相互连接组成分散系统，然后将需要处理的大量数据分散成多个部分，交由分散系统内的计算机组同时计算，最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强，但是由于每个计算机只计算一部分数据，而且是多台计算机同时计算，所以就分散系统而言，处理数据的速度会远高于单个计算机。

　　过去，分布式计算理论比较复杂，技术实现比较困难，因此在处理大数据方面，集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件，很多银行和政府机构都用它处理大数据。不过，对于当时的互联网公司来说，IBM的大型机的价格过于昂贵。因此，互联网公司的把研究方向放在了可以使用在廉价计算机上的分布式计算上。

大数据

　　服务器集群(Server Cluster)

　　服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。因此，从外部看，这群服务器表现为一台虚拟的服务器，对外提供统一的服务。

　　尽管单台服务器的运算能力有限，但是将成百上千的服务器组成服务器集群后，整个系统就具备了强大的运算能力，可以支持大数据分析的运算负荷。Google，Amazon，阿里巴巴的计算中心里的服务器集群都达到了5000台服务器的规模。

　　大数据的技术基础：MapReduce、Google File System和BigTable

　　2003年到2004年间，Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文，提出了一套全新的分布式计算理论。

　　MapReduce是分布式计算框架，GFS(Google File System)是分布式文件系统，BigTable是基于Google File System的数据存储系统，这三大组件组成了Google的分布式计算模型。

　　Google的分布式计算模型相比于传统的分布式计算模型有三大优势：首先，它简化了传统的分布式计算理论，降低了技术实现的难度，可以进行实际的应用。其次，它可以应用在廉价的计算设备上，只需增加计算设备的数量就可以提升整体的计算能力，应用成本十分低廉。最后，它被Google应用在 Google的计算中心，取得了很好的效果，有了实际应用的证明。

　　后来，各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统，Google的这三篇论文也就成为了大数据时代的技术核心。

　　主流的三大分布式计算系统：Hadoop，Spark和Storm

　　由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。

　　Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席，主持Hadoop的开发工作。

　　Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop在运算速度上依然达不到Google论文中的标准。

　　不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon以及国内的百度，阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

　　Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

　　Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。

　　Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

大数据时代大数据分析的哲学变革

近年来，大数据这个原本陌生的专业词汇迅速进入大众视野，掀起了一场新的数据技术革命。大数据正在改变我们的生产、生活、教育、思维等诸多领域以及认识、理解世界的方式，作为时代精神精华的哲学，应该及时对这场数据革命做出全面的回应和批判，深入分析大数据对我们的世界观、认识论、方法论、价值观和伦理观将带来的深刻...

谷歌技术”三宝”之谷歌文件系统（GFS） — 大数据云计算时代...

虽然"The Google File System " 是 03年发表的老文章了，但现在仍被广泛讨论，其对后来的分布式文件系统设计具有指导意义。然而，作者在设计GFS时，是基于过去很多实验观察的，并提出了很多假设作为前提，这等于给出了一个GFS的应用场景。所以我们自己在设计分布式系统时，一定要注意...

电信运营商加入互联网金融“战团”

电信运营商加入互联网金融“战团” 李文龙不仅仅“BAT”等互联网巨头积极向金融跨界，电信运营商在互联网金融创新方面也在衔枚疾进。目前中国电信旗下的支付品牌“翼支付”不仅推出了货币基金理财产品“添益宝”，还针对上下游客户金融需求推出了供应链融资产品“天翼贷”，显示出其在互联网金融领域进一步布局的趋势。...

浅论Hadoop应用工作思路

随着企业对大数据越来越重视，hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路，我想了下以下几方面，和大家一起讨论：首先最重要的是建立一支以开发人员为主的团队。 Hadoop虽然很火，但是还是在初级阶段，开源的东西存在业务不完全匹配，成熟度低等诸多问题。所以不管是什么公司...

看大数据如何改变音乐产业

行业领导者继续将音乐的版权使用费视为重中之重，认为它才是艺术家们收入的唯一未来。然而，音乐商业化的命运依然前途未卜。有些人认为我们的目标仅是简单地将艺术家的音乐传送到消费者的耳朵里。其他人则认为应该继续由消费者为音乐服务买单。不过，对那些音乐创作者来说，不管他们是签约音乐人还是独立音乐人，订阅模式...

大数据如何解决城市计算的基本框架及核心问题...

编者按：近年来，随着感知技术和计算环境的成熟，各种大数据在城市中悄然而生。城市计算就是用城市中的大数据来解决城市本身所面临的挑战，通过对多种异构数据的整合、分析和挖掘，来提取知识和智能，并用智能来创造“人—环境—城市”三赢的结果。微软亚洲研究院主管研究员郑宇从城市计算的基本框架及核心问题...

云计算遭遇大数据碰撞出技术革命

前两天有人在微博发问，用什么样的方式讲述大数据和云计算才能非专业人士听的更清楚，其实关于大数据的案例有很多，商业智能分析也多次提到过关于数据挖掘的价值和意义，只不过在今天看数据比以前还多而已，大数据并不可怕，可怕的是他的实时分析能力，会让缺点和真相赤裸裸暴露在人们面前，那么当云计算遭遇大数据一股脑向...

中国云计算困局

连VOIP这种业务，都无法正名化，可见电信一脉对自己固有的收入是多么在意，以及多么强势。在这种大背景下，云计算更多呈现的是一种“概念化”，一种连完整的SAAS都谈不上的低等级应用，一种其实就是Web式Email那个类型的所谓云计算。有位媒体朋友打电话咨询我一个事。说在江浙一带，有一位搞国际货运代理...

声明: 本文由( 爱说云网 )原创编译，转载请保留链接: 大数据基础知识：分布式计算、服务器集群-