42页PPT干货!R在行动广告大数据的应用-技术方案

时间:14-12-19 栏目:大数据 作者:爱说云网 评论:0 点击: 1,430 次

网易的实时计算需求

对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销。

实时计算指针对只读(Read Only)数据进行即时数据的获取和计算,也可以成为在线计算,在线计算的实时级别分为三类:Real-Time(msec/sec级)、Near Real-Time(min/hours)以及Batch(days)。 在批处理方面,MapReduce(MR)已经证明其为最有效的工具,随着MR的开源实现Hadoop为代表的大数据分析技术的普及,其在大处理方面的能 力已经得到认可,但是它更适用于对集群上大数据的批处理,并不适用于实时处理大规模流数据。为了满足实时性的要求,基于数据仓库所构建的流计算和实时性计 算框架也不断涌现,相关围绕MR的实时性优化技术也蓬勃发展,比较代表性的系统Google Dremel、Twitter Storm以及Yahoo S4等。

大数据的应用类型主要分为:批处理(Batch Processing)和流处理(Stream Processing)两方面。批处理是先存储后处理(Store-Then-Process),流处理是直接处理(Straight-Through- Processing),为提高商业智能的反映时间,目前广泛所采取的大数据处理框架,例如MR和Dryad所面向的主要是大规模数据分析,以批处理计算 为主,其实时性需求得不到满足。常用的应用有在线推荐、网页点击分析、传感网络、交通分析以及金融中的高频交易,对实时分析处理(Real Time Analytic Processing, RTAP)的需求越来显著,网易公司作为国内最大的门户网站之一,实时性也是公司目前互联网产品所应具备的重要属性。

网易大数据Spark技术应用

Spark技术代表未来数据处理的新方向,Spark是UC Berkeley AMP lab开源的类Hadoop MapReduce的通用并行计算框架,Spark基于MapReduce实现分布式计算,拥有Hadoop MapReduce具有的优点。不同于MapReduce的是,Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好 地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

在网易大数据平台中,数据存储在HDFS之后,提供Hive的数据仓库计算和查询,要提高数据处理的性能并达到实时级别,网易公司采用的是 Impala和Shark结合的混合实时技术。Cloudera Impala是基于Hadoop的实时检索引擎开源项目,其效率比Hive提高3-90倍,其本质是Google Dremel的模仿,但在SQL功能上青出于蓝胜于蓝。Shark是基于Spark的SQL实现,Shark可以比 Hive 快40倍(其论文所描述), 如果执行机器学习程序,可以快 25倍,并完全和Hive兼容。

图1和图2分别测试的计算能力和实时查询性能经过初步测试,在网易的实时计算平台,在大数据实时查询系统中,Impala在数据处理方面的速度可以 相比HIVE达到3倍到30倍的加速比,Shark可以相比HIVE达到 1.5到15倍的加速比,相比较Impala和Shark引擎,通常Impala会比Shark快一倍,这里可能会引出思考,既然Impala实时性如此 好,为何还需要Shark呢?

在设计大数据平台的时候,我们发现Impala性能不错,但是其对旧Hive的数据不兼容,因为目前的大数据应用中很多都是Hive的组织方式,而 Shark可以完全兼容旧的数据,因此在目前的数据结构中必须采用混合的数据处理模式。Hive和Impala会协同存在一段时间, Hive主要为Predefined Queries,并主要处理批处理相关作业,而Impala则处理交互的查询(AD-HOC Queries),使得大数据系统既支持OLTP,也支持OLAP,以达到实时分析处理(Real Time Analytic Processing, RTAP)的水平。

图1 网易大数据平台性能测试(Count/Sum/Avg操作)

图2网易大数据平台性能测试(Join/Ad-hoc查询操作)

总结

如果要评价2012到2013年度IT业界热词,非“大数据”一词莫属。ROI(Return On Investment)投资回报率已经演化为Return On Information,信息的回报率成为互联网公司的一个重要指标,如果所掌握的海量数据都是一堆“垃圾”,没有金矿去挖掘,那大数据也无从谈起,而提 高ROI的一个重要属性就是实时性,提高数据的反应时间需要技术做支撑和保障,网易作为中国顶尖的互联网公司之一,在大数据方面也是最早的先行者,特别实 时计算技术方面,公司很早就开始采用最新的技术来提供服务,例如Impala和Shark等,不难发现,网易的大数据系统可以灵活的选择计算实时引擎,总 体上系统在实时处理方面的能力可以提升2到15倍,这对于提升公司的生产效率有显著成效,在后续的工作中期望可以进一步提升实时级别,目前只能做到秒级, 能否达到毫秒级甚至微秒级别是将来的一个研发方向,总之对于海量数据计算、实时性方面有强烈需求的公司应用落地Spark是很好的选择。

参考资料

[1] Storm Distributed and fault-tolerant real time computation

[2] Leonardo Neumeyer, Bruce Robbins, Anish Nair, Anand Kesari. S4: Distributed Stream Computing Platform. 2010 IEEE International Conference on Data Mining Workshops (ICDMW).

[3] Cloudera Impala https://github.com/cloudera/impala

Reynold S. Xin, Josh Rosen, et al. Shark: SQL and rich analytics at scale. SIGMOD Conference 2013.

相关文章

大数据引擎推动国家治理能力现代化-技术方案...
views 1504
在全球化和信息化的背景下,中国作为一个“巨型国家”的“社会结构性”转型,是21世纪人类文明史上有着全球性影响的重大事件。对中国转型过程众多领域中的“海量信息”或“大数据”的正确解读,不仅对于中国国家治理能力的提高,实现社会的平稳转型产生决定性影响;而且也必将对“世界的合理化”程度和人类文明的进程与走...
选举大数据研究 美两党火拚-应用案例
views 1738
  大数据研究是美国选战的重要策略,民主党在两次总统选举中领先,但共和党急起直追,网路与手机的数位流动资讯,已成胜选的关键。   美国千禧世代支持者研究网路资料,拟定选举策略,是总统欧巴马两度入主白宫的重要推手;民主党虽在11月的期中选举落败,但大数据(Big Data)研究更为精进,年轻人较支持...
大数据与网络黑产
views 3038
随着互联网不断深度介入人们的生活,网络上也在源源不断积累起大量数据。这些数据就像散落在互联网生态中的粒粒珍珠,诱惑着网络黑产分子瞪大贪婪的双眼,伺机而动…… 记者调查发现,基于这些存在的产业链,上游,是以技术含量最高的职业黑客为主,他们通过挖掘漏洞、编写木马实施入侵,获取数据;中游,是购买这些数据...
BDTC 2014讲义尝鲜:15家机构论道大数据实战...
views 1921
2014中国大数据技术大会已圆满落幕,这里为大家送上本届大会的第一手干货,分别来自Hortonworks、IBM、Intel、VMware、eBay、阿里、腾讯、网易、搜狐、携程等机构。 2014年12月12-14日,作为大数据领域最具影响、规模最大的IT盛会——2014中国大数据技术大会暨第二届C...
了解用于大数据解决方案的逻辑层-技术方案...
views 1489
文中介绍的模式有助于定义大数据解决方案的参数。本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案。原子模式描述了使用、处理、访问和存储大数据的典型方法。复合模式由原子模式组成,并根据大数据解决方案的范围进行分类。由于每个复合模式都有若干个维度,所以每个模式都有许多变化。复合模式使得业务和技术...
大数据2015年或成IBM核心业务
views 1415
12月24日消息,据国外媒体报道,随着2014年年终的日子越来越近,IBM的股价却仍然在地位徘徊。过去十年时间里,IBM的收益的增长速度曾经令人惊叹。然而进入2014年之后IBM的业绩就开始衰败,一些市场分析人士对于2015年IBM的表现也并无太高的期许。在笔者看来,IBM在日益激烈的行业竞争中已...
肥皂与手纸:神奇的电商大数据分析-应用案例...
views 1718
电商行业的人一定对啤酒与尿布的故事有所耳闻,20世纪90年代美国沃尔玛超市管理人员分析销售数据时候,发现了一个奇怪的现象:在一些情况下,啤酒和尿布看上去毫无关系的商品经常出现在同一购物篮中,调查发现这个现象出现在年轻的爸爸身上。这个故事讲述了零售行业的购物篮分析技术的重要性,数据技术对于零售业格外重...
2015年度大数据发展十大预测
views 1733
《中国大数据技术与产业发展白皮书(2014年)》针对2015年度大数据发展做了十大预测,他们分别是: 一、结合智能计算的大数据分析成为热点,包括大数据与神经计算、深度学习、语义计算以及人工智能其他相关技术结合,成为大数据分析领域的热点。大数据分析的核心是从数据中获取价值,价值体现在从大数据中获取更...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 42页PPT干货!R在行动广告大数据的应用-技术方案

42页PPT干货!R在行动广告大数据的应用-技术方案:等您坐沙发呢!

发表评论


读者排行