网易大数据平台的Spark技术实践-技术方案

时间:14-12-19 栏目:大数据作者:爱说云网评论:0 点击: 1,546 次

本文标签： Spark , 大数据

网易的实时计算需求

对于大多数的大数据而言，实时性是其所应具备的重要属性，信息的到达和获取应满足实时性的要求，而信息的价值需在其到达那刻展现才能利益最大化，例如电商网站，网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿，做到精准营销。

实时计算指针对只读（Read Only）数据进行即时数据的获取和计算，也可以成为在线计算，在线计算的实时级别分为三类：Real-Time(msec/sec级)、Near Real-Time(min/hours)以及Batch(days)。在批处理方面，MapReduce(MR)已经证明其为最有效的工具，随着MR的开源实现Hadoop为代表的大数据分析技术的普及，其在大处理方面的能力已经得到认可，但是它更适用于对集群上大数据的批处理，并不适用于实时处理大规模流数据。为了满足实时性的要求，基于数据仓库所构建的流计算和实时性计算框架也不断涌现，相关围绕MR的实时性优化技术也蓬勃发展，比较代表性的系统Google Dremel、Twitter Storm以及Yahoo S4等。

大数据的应用类型主要分为：批处理（Batch Processing）和流处理（Stream Processing）两方面。批处理是先存储后处理（Store-Then-Process）,流处理是直接处理（Straight-Through- Processing）,为提高商业智能的反映时间，目前广泛所采取的大数据处理框架,例如MR和Dryad所面向的主要是大规模数据分析，以批处理计算为主，其实时性需求得不到满足。常用的应用有在线推荐、网页点击分析、传感网络、交通分析以及金融中的高频交易，对实时分析处理（Real Time Analytic Processing, RTAP）的需求越来显著，网易公司作为国内最大的门户网站之一，实时性也是公司目前互联网产品所应具备的重要属性。

网易大数据Spark技术应用

Spark技术代表未来数据处理的新方向，Spark是UC Berkeley AMP lab开源的类Hadoop MapReduce的通用并行计算框架，Spark基于MapReduce实现分布式计算，拥有Hadoop MapReduce具有的优点。不同于MapReduce的是，Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

在网易大数据平台中，数据存储在HDFS之后，提供Hive的数据仓库计算和查询，要提高数据处理的性能并达到实时级别，网易公司采用的是 Impala和Shark结合的混合实时技术。Cloudera Impala是基于Hadoop的实时检索引擎开源项目，其效率比Hive提高3-90倍，其本质是Google Dremel的模仿，但在SQL功能上青出于蓝胜于蓝。Shark是基于Spark的SQL实现，Shark可以比 Hive 快40倍（其论文所描述），如果执行机器学习程序，可以快 25倍，并完全和Hive兼容。

图1和图2分别测试的计算能力和实时查询性能经过初步测试，在网易的实时计算平台，在大数据实时查询系统中，Impala在数据处理方面的速度可以相比HIVE达到3倍到30倍的加速比，Shark可以相比HIVE达到 1.5到15倍的加速比，相比较Impala和Shark引擎，通常Impala会比Shark快一倍，这里可能会引出思考，既然Impala实时性如此好，为何还需要Shark呢？

在设计大数据平台的时候，我们发现Impala性能不错，但是其对旧Hive的数据不兼容，因为目前的大数据应用中很多都是Hive的组织方式，而 Shark可以完全兼容旧的数据，因此在目前的数据结构中必须采用混合的数据处理模式。Hive和Impala会协同存在一段时间， Hive主要为Predefined Queries，并主要处理批处理相关作业，而Impala则处理交互的查询（AD-HOC Queries），使得大数据系统既支持OLTP，也支持OLAP,以达到实时分析处理（Real Time Analytic Processing, RTAP）的水平。

图1 网易大数据平台性能测试(Count/Sum/Avg操作)

图2网易大数据平台性能测试(Join/Ad-hoc查询操作)

总结

如果要评价2012到2013年度IT业界热词，非“大数据”一词莫属。ROI（Return On Investment）投资回报率已经演化为Return On Information,信息的回报率成为互联网公司的一个重要指标，如果所掌握的海量数据都是一堆“垃圾”，没有金矿去挖掘，那大数据也无从谈起，而提高ROI的一个重要属性就是实时性，提高数据的反应时间需要技术做支撑和保障，网易作为中国顶尖的互联网公司之一，在大数据方面也是最早的先行者，特别实时计算技术方面，公司很早就开始采用最新的技术来提供服务，例如Impala和Shark等，不难发现，网易的大数据系统可以灵活的选择计算实时引擎，总体上系统在实时处理方面的能力可以提升2到15倍，这对于提升公司的生产效率有显著成效，在后续的工作中期望可以进一步提升实时级别，目前只能做到秒级，能否达到毫秒级甚至微秒级别是将来的一个研发方向,总之对于海量数据计算、实时性方面有强烈需求的公司应用落地Spark是很好的选择。

参考资料

[1] Storm Distributed and fault-tolerant real time computation

[2] Leonardo Neumeyer, Bruce Robbins, Anish Nair, Anand Kesari. S4: Distributed Stream Computing Platform. 2010 IEEE International Conference on Data Mining Workshops (ICDMW).

[3] Cloudera Impala https://github.com/cloudera/impala

Reynold S. Xin, Josh Rosen, et al. Shark: SQL and rich analytics at scale. SIGMOD Conference 2013.

美国大数据工程师面试攻略有哪些？

大家好，我是来自硅谷的董飞，应国内朋友邀请，很高兴跟大家交流一下美国大数据工程师的面试攻略。个人介绍先做一个自我介绍，本科南开后，加入了一个创业公司kuxun，做实时信息检索，后来进入百度基础架构组，搭建了Baidu App Engine的早期版本，随后去Duke大学留...

戴尔与贵阳市政府开展大数据及云计算领域合作...

北京，2015年1月20日——戴尔今天宣布，与贵阳市政府签署合作备忘录，双方将在大数据、云计算等领域展开一系列合作，通过共建云联合实验室、搭建混合企业云平台以及开展相关大数据人才培训等方式，建立广泛而深入的合作伙伴关系。在贵阳市政府的大力支持下，戴尔将进一步拓展在中国企业级市场的覆盖，助力中国地方经...

大数据引擎推动国家治理能力现代化-技术方案...

在全球化和信息化的背景下，中国作为一个“巨型国家”的“社会结构性”转型，是21世纪人类文明史上有着全球性影响的重大事件。对中国转型过程众多领域中的“海量信息”或“大数据”的正确解读，不仅对于中国国家治理能力的提高，实现社会的平稳转型产生决定性影响；而且也必将对“世界的合理化”程度和人类文明的进程与走...

如何结合大数据与云计算

你如何在大数据的海洋寻宝？对于那些拥有庞大信息需要处理的企业，在数据分析之前要克服的第一个障碍就是--不能够定位到相关并且有意义的信息。这也是HGST遇到的问题，HGST（日立环球存储科技公司）是一个计算机硬件的主要生产厂商，他们现在迫切需要追踪在生产设施上收集到的数据。据HGST的云计算与高性能解...

大数据基础知识：分布式计算、服务器集群-...

大数据的数据量是非常大的，都是达到了PB的级别。在这么大的数据当中，包括了结构化数据和非结构化数据。其中结构化数据包括了数字、符号等数据，非结构化数据包括了文本、图像、声音、视频等数据。这让大数据在存储和处理的过程当中就不能用传统的数据库关系去完成了。在大数据里面，最有价值的信息就在这里面，所以这个...

大数据挖掘带动的变迁

自大数据进入了人们的视线之后，它便逐渐成为人们普遍关注的焦点。大数据讲的是PB时代的科学，本质上大数据的挑战是PB时代的对科学的挑战，更是对包括数据挖掘在内的认知科学的挑战。那么，大数据时代怎么做数据挖掘呢? 　　在现今时代人们通常所说的大数据主要包括三个来源：第一是自然界大数据，也就是地球上的自然...

大数据未来发展趋势预测

大数据的世界正在稳步发展壮大。随着数据数量和种类的不断膨胀，读者都想知道接下来会发生什么。Sriram Mohan博士是罗斯豪曼理工学院计算机科学和软件工程的副教授。同时他还兼任着Avalon咨询公司大数据解决方案高级顾问一职。他融汇理论与实践于一身，他绝对是回答“2014年企业大数据发展趋势”的正...

大数据时代大数据分析的哲学变革

近年来，大数据这个原本陌生的专业词汇迅速进入大众视野，掀起了一场新的数据技术革命。大数据正在改变我们的生产、生活、教育、思维等诸多领域以及认识、理解世界的方式，作为时代精神精华的哲学，应该及时对这场数据革命做出全面的回应和批判，深入分析大数据对我们的世界观、认识论、方法论、价值观和伦理观将带来的深刻...

声明: 本文由( 爱说云网 )原创编译，转载请保留链接: 网易大数据平台的Spark技术实践-技术方案