大数据基础知识：分布式计算、服务器集群-

时间:14-07-09 栏目:大数据作者:爱说云网评论:0 点击: 1,830 次

本文标签：云计算应用实例 , 云计算应用领域 , 大数据 , 大数据 , 大数据分析 , 大数据处理 , 大数据时代

大数据的数据量是非常大的，都是达到了PB的级别。在这么大的数据当中，包括了结构化数据和非结构化数据。其中结构化数据包括了数字、符号等数据，非结构化数据包括了文本、图像、声音、视频等数据。这让大数据在存储和处理的过程当中就不能用传统的数据库关系去完成了。在大数据里面，最有价值的信息就在这里面，所以这个时候对于大数据的处理速度需求很高，只有这样才能在短时间里从复杂的数据当中获取到有价值的信息。在这么多的大数据里面，其中不单单包含了一些真实的数据，其中还有一部分虚假的数据参杂在里面。这也就是在大数据处理的时候需要将虚假的数据剔除掉，利用真实的数据来进行分析。

　　大数据分析(Big Data Analysis)

　　大数据，表面上看就是大量复杂的数据，这些数据本身的价值并不高，但是对这些大量复杂的数据进行分析处理后，却能从中提炼出很有价值的信息。对大数据的分析，主要分为五个方面：可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)。

　　可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式，比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表，使其能够更加容易的被普通消费者所接受和理解。

　　数据挖掘算法是大数据分析的理论核心，其本质是一组根据算法事先定义好的数学公式，将收集到的数据作为参数变量带入其中，从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析，挖掘出以前未知的两者间的联系，并利用这种联系，提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。

　　预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律，建立起科学的事件模型，通过将新的数据带入模型，就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域，用于股票预测或气象预测等。

　　语义引擎是机器学习的成果之一。过去，计算机对用户输入内容的理解仅仅停留在字符阶段，不能很好的理解输入内容的意思，因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析，让计算机从中自我学习，可以使计算机能够尽量精确的了解用户输入内容的意思，从而把握住用户的需求，提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。

　　数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性，需要将大数据中不真实的数据剔除掉，保留最准确的数据。这就需要建立有效的数据质量管理系统，分析收集到的大量复杂的数据，挑选出真实有效的数据。

大数据

　　分布式计算(Distributed Computing)

　　对于如何处理大数据，计算机科学界有两大方向：第一个方向是集中式计算，就是通过不断增加处理器的数量来增强单个计算机的计算能力，从而提高处理数据的速度。第二个方向是分布式计算，就是把一组计算机通过网络相互连接组成分散系统，然后将需要处理的大量数据分散成多个部分，交由分散系统内的计算机组同时计算，最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强，但是由于每个计算机只计算一部分数据，而且是多台计算机同时计算，所以就分散系统而言，处理数据的速度会远高于单个计算机。

　　过去，分布式计算理论比较复杂，技术实现比较困难，因此在处理大数据方面，集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件，很多银行和政府机构都用它处理大数据。不过，对于当时的互联网公司来说，IBM的大型机的价格过于昂贵。因此，互联网公司的把研究方向放在了可以使用在廉价计算机上的分布式计算上。

大数据

　　服务器集群(Server Cluster)

　　服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。因此，从外部看，这群服务器表现为一台虚拟的服务器，对外提供统一的服务。

　　尽管单台服务器的运算能力有限，但是将成百上千的服务器组成服务器集群后，整个系统就具备了强大的运算能力，可以支持大数据分析的运算负荷。Google，Amazon，阿里巴巴的计算中心里的服务器集群都达到了5000台服务器的规模。

　　大数据的技术基础：MapReduce、Google File System和BigTable

　　2003年到2004年间，Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文，提出了一套全新的分布式计算理论。

　　MapReduce是分布式计算框架，GFS(Google File System)是分布式文件系统，BigTable是基于Google File System的数据存储系统，这三大组件组成了Google的分布式计算模型。

　　Google的分布式计算模型相比于传统的分布式计算模型有三大优势：首先，它简化了传统的分布式计算理论，降低了技术实现的难度，可以进行实际的应用。其次，它可以应用在廉价的计算设备上，只需增加计算设备的数量就可以提升整体的计算能力，应用成本十分低廉。最后，它被Google应用在 Google的计算中心，取得了很好的效果，有了实际应用的证明。

　　后来，各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统，Google的这三篇论文也就成为了大数据时代的技术核心。

　　主流的三大分布式计算系统：Hadoop，Spark和Storm

　　由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。

　　Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席，主持Hadoop的开发工作。

　　Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop在运算速度上依然达不到Google论文中的标准。

　　不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon以及国内的百度，阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

　　Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

　　Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。

　　Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

浅析大数据与云计算物联网等热点的关系...

　　大数据时代的到来，是全球知名咨询公司麦肯锡最早提出的，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。” 近几年大数据一词的持续升温也带来了大数据泡沫的疑虑，大数据的前景与目前云计算、物联网...

11·11单日1400万单的背后：京东技术首次全解密...

随着移动终端和移动应用的发展将互联网的边界从空间和时间维度无限延伸，企业互联网的构建也成为2014年企业IT的一大主题，互联网用户体验的保障则是企业面临的一道坎。在此背景下，阿里、京东等中国电商巨头如何通过技术创新来保证海量订单压力下的用户体验，成为业界研究的热门对象。对于京东的技术团队而言，由于...

MPP DB 是大数据实时分析系统未来的选择吗？...

大数据领域，实时分析系统（在线查询）是最常见的一种场景，前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE，如腾讯基于HIVE深度定制改造，改名为TDW，小米等公司选用HBASE等。关于HIVE/HBASE/IMP...

云计算：程序员重回个人英雄时代 -

曾几何时，那些耳熟能详的程序英雄的名字渐渐地离我们远去。随着Windows和Internet时代的来临，个人的力量变得越来越渺小。正当我们开始坚信单打独斗的时代一去不复返的时候，云计算横空出世了。它强大的计算能力、存储能力和简单高效的编程接口，使得一位程序员能够轻松地操控成千上万台计算机，而不必考虑...

在Docker容器之间拷贝数据：原理与操作示例...

ocker容器可以类比成一个目录，它可以将一个应用程序运行时所依赖的所有环境（注：此应用依赖的其他的服务或程序等）打包在一起运行；同时可以随意的对它进行“启动”、“停止”、“移动”或者“删除”等操作。Docker容器在Linux的命名空间（Namespace）机制下被激活，这样就可以使得运行在同...

用友软件：互联网金融服务商雏形渐显...

　用友软件互联网金融业务布局不断落地,互联网金融服务商雏形渐显。　　事件评论　　“用友版”互联网金融定位中小企业金融服务,将充分挖掘公司现有近200万小微企业客户的价值,市场空间非常广阔。和银行及BAT等互联网巨头进行金融服务不同,用友最核心的财富在于拥有近200万的小微企业客户,因此,定位于中...

云计算、大数据、物联网发展趋势

　1.个人和企业等将在技术上花费21000亿美元　　更多　　信息产业的研究报告　　2014-2018年版信息产业园区定位规划及招商策略2008-2009年中国信息产业发展研究年度总报告2008-2009年中国台湾地区信息产业发展研究年度2008-2009年欧盟信息产业发展研究年度报告2008...

十大必知的大数据分析公司

data scientist 大数据和数据分析技术将持续升温，相关创业公司也如雨后春笋一般让人们目接不暇。最近大数据分析专家Robin Bloor 根据技术创新性，技术路线等评判标准，列出了10家值得关注的大数据分析技术公司，IT经理网编译整理如下： Actuate： clip_imag...

声明: 本文由( 爱说云网 )原创编译，转载请保留链接: 大数据基础知识：分布式计算、服务器集群-