百度实时计算平台的实现和应用

时间:14-11-03 栏目:大数据 作者:爱说云网 评论:0 点击: 1,695 次

百度实时计算平台的实现和应用

 

 

“大数据”在互联网行业中已是普遍现象,一家公司每天累积的用户行为数据甚至已不能用TB来衡量。海量数据对实时分析和计算提出了更高的要求,实时处理程序必须确保在严格的时间内响应,通常以秒为单位,甚至是毫秒。传统的批量计算模型已无法满足这些要求,必须用专门的实时计算系统替代。当前,业界知名的实时计算系统有Google的MillWheel、Twitter开源的Storm、Spark Streaming等。

 

百度自主研发了国内规模最大的实时计算平台——Dstream和TM。它们各有千秋,适用于不同的业务场景。Dstream旨在面向有向无环的数据处理流,满足高时效性要求的计算业务场景(如实时CTR计算),可达到毫秒级的响应。TM则是queue-worker模式的准实时workflow计算系统,可满足秒级到分钟级响应,并具备transaction语义,流入平台的数据即使在平台发生故障的情况下,也能做到不重不丢。这一系统主要应用于低时延、高吞吐及对数据完整性要求极高的场景,如报表生成系统、计费流计算等。

 

百度实时计算平台介绍

 

Dstream立项之初,业界还没有类似的开源系统(Storm尚未正式推出),只能依靠研发团队自己摸索。目前Dstream平台的集群规模已超千台,单集群最大处理数据量超过50TB/天,集群峰值QPS 193W/S,系统稳定性、计算能力已完全满足海量数据时效性处理需求。即使与Storm相比,Dstream在系统成熟度、性能、稳定性等方面仍然优势明显,具体对比数据如表1所示。

 

 

 

TM平台从2013年开始研发,目前集群规模为百台级,单集群最大处理数据量超过30TB/天,最大QPS 20W/S。基于TM平台实现的多路数据流式join解决方案,已具备超大时间窗流式join计算能力,时间窗可到“天”级别,保证数据不丢不重,达到了业界先进水平,并已应用于百度多条业务线的点击日志、展现日志的join计算。

 

在TM平台上,用户构造一个作业描述文件来阐述各种worker之间的数据流向关系和每个worker所需的资源,通过client将作业提交给TM平台,然后由TM调度并运行。TM平台可利用公司空闲服务器资源进行计算。系统具有以下几个特性。

 

保证数据完整和时效。数据在处理过程中,保证不会出现重复和丢失,在保证join比例的情况下,最短时间内输出给下游使用。

 

容忍数据流的长时间跨度。不限制输入数据流的时间延迟和跨度,通过引入可靠存储系统来“存储一种数据流,其余数据流查询”的方式,解决长时间跨度下数据join问题;对于时间跨度小的数据流,提供基于滑动窗口的内存join方式。

 

通用性。可以同时应对不同时间跨度的join,一般应用既需要时效性较高,又要求数据join比例不同,时效性也有所不同。通过引入多级重试join机制,系统同时满足了这两个需求。

 

高可靠性和高可运维。通过支持多集群备份、多机房备份等方案,保证系统的高可靠性。另外通过TM平台管理应用拓扑、集群配置,支持配置动态更新、故障自动检测等,增强系统的高可运维性。

 

实时计算平台应用案例

 

日志实时ETL

 

百度内部有统一的用户数据仓库,数据入库的方式有两种:一是通过基于Hadoop的ETL平台批量定期入库,二是直接通过实时计算系统实时入库。其中实时入库系统名为UDW–RT,它基于底层实时计算平台二次开发,致力于为百度提供一个面向流的、实时的数据ETL平台;通过设计和实现一个类SQL、可扩展的流运算系统,UDW–RT系统能为实时数据处理提供基础设施和数据供给。

UDW-RT系统逻辑上可分为以下三层(如图1)。

 

 

 

第一层为RT-importer,其职责是清洗、归并、结构化从pipe系统导入的数据并映射成流,每个流可以被想象成是一个无限长的数据表。

 

第二层是RT-PE,负责执行流算子。通过应用流类SQL算子(目前只支持部分SQL操作,如union、filtering和projection等),可以生成一个或多个逻辑流;每个逻辑流都可被下游零个或多个数据使用方订阅。

 

第三层是RT系统的应用程序,被称为RT-EXPORTER;数据使用方通过挂载RT-EXPORTER来进行数据消费。

 

实时竞价RTB

 

TM平台对RTB实时竞价产生的两路日志进行join计算,以确定竞价成功的广告,计算后的输出数据成为百度反作弊、CTR计算、计费等多个后端系统的入口。TM流式join架构支撑了RTB竞价模式落地,满足了广告主对于内容投放提出的更精准、实时和程序化的要求。同时,通过TM平台,百度网盟业务实现了前后端架构解耦,提升了系统健壮性和可扩展性,它由以下几个主要部分组成(如图2所示)。

 

 

 

Bigpipe:百度内部分布式消息发送订阅系统,延迟低,并且能保证数据在传输过程中不重不丢。

Bundler:TM平台订阅Bigpipe数据的通用模块,A_bundler和B_bundler表示订阅不同的数据流。

Parser:数据解析模块,主要将目前数据格式从文本转化成PB。

Aggregator:文件聚合模块,主要是将Parser产生的小文件聚合成大文件,减少文件个数。

Joiner:核心模块,负责两种数据流的join。采用基于滑动窗口的方式,保证数据流的流动和延迟,同时数据在窗口内部有序,使得单个joiner在输出数据时有序。另外通过aggregator流控策略,可以保证各个joiner输出数据时间戳相差不大,从而保证整体数据输出乱序有限。

Appender:TM平台向Bigpipe发布数据的模块。这里分了三路,分别表示A、B两种数据流没有join上的结果,以及join上的结果。

 

总结

 

基于实时计算平台,百度已具备多种高时效性的数据处理解决方案,这些技术已在越来越多的应用场景中发挥出重要作用。未来,百度将继续投入,深化对大数据实时计算架构及其关键技术的研究,进一步推动大数据实时计算理论、方法、技术与系统的应用与发展,以满足更广泛的市场需求和应用前景

相关文章

云计算将从五大方面改造传统制造业
views 1352
令人惊讶的是,一部分管理者仍然在争论云是否能对企业的制造产生价值——尽管他们在一些明确的情况下仍然会考虑使用云。大多数管理者对云避而不谈是出于对成本的考虑,但在我们当前营运的行业里,基于云的解决方案尤具成本效益,特别是考虑到减少数据中心和IT管理人员所节省下来的时间和费用。   对云依然存有疑问的管...
数据可视化、信息可视化、知识可视化-技术方案...
views 2148
 概述   数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又...
云计算发展
views 1480
21世纪10年代云计算作为一个新的技术趋势已经得到了快速的发展。云计算已经彻底改变了一个前所未有的工作方式,也改变了传统软件工程企业。以下几个方面可以说是云计算目前发展最受关注的几大方面: 1、云计算扩展投资价值 云计算简化了软件、业务流程和访问服务。比以往传统模式改变的更多,这是帮助企业操作和优化...
长虹“财务云”:中国企业财务共享先行者...
views 1954
 打开长虹财务共享中心的官方网站,首先映入眼帘的赫然是这样一行字:“中国企业财务共享的先行者。”这样一句毫不客气地把自己置于中国财务共享顶点位置的话,是自信还是狂妄?   或许,以下事实能为我们解答这个问题:今年4月,长虹财务共享中心的案例作为哈佛经济学研究成果案例纳入MBA课程;在此之前,该案例也...
畅捷通:云计算驱动信息化助企业发展...
views 1602
企业信息化已经进入云时代,云计算将让信息化变得更简单高效,运用云计算、移动电子商务、大数据等新一代信息技术,让小企业信息化管理水平提升,竞争力增强,为小企业健康持续发展奠定基础。畅捷通信息技术股份有限公司助理总裁张红表示,信息化服务商必须加大创新力度,推动云计算在企业信息化中的深度应用和高效应用。信...
从开源社区到云计算
views 1645
UNIX编程艺术讲到UNIX为何如此成功的第一个原因就是开源。当时的一些计算机大牛们,为了彼此间更好的合作,为了提高团队的效率,选择选择将源代码开放出去。在那个蛮荒的时代,因特网没有诞生,甚至最开始连TCP/IP都没有诞生,人们依赖脆弱的计算机网络进行一些文档的传输和技术上的交流。开源这件事是那些大...
从Xen漏洞帽子戏法看AWS、Rackspace、SoftLayer的碰撞...
views 1491
从Xen漏洞帽子戏法看AWS、Rackspace、SoftLayer的碰撞 9月23日,用于Linux内核的虚拟化技术Xen被爆出3个安全漏洞,着实上演了一出帽子戏法。Xen漏洞可跳出虚拟主机环境(越权),或读取其它用户的数据、控制hypervisor本身(宿主机)。远程攻击者可利用漏洞造成主机系...
1元带来的16块效应 微软合作伙伴转型云计算...
views 1412
今年,微软的一系列公有云服务正式落地中国,由世纪互联运营的Windows Azure、Office 365服务相继正式商用,而微软也正在推进着自己的转型之路。所有的业务发展都离不开生态系统中各环节的通力配合,在本地建立核心的生态伙伴变得尤为重要,在微软向云计算、移动等领域转型的过程中,微软的合作...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 百度实时计算平台的实现和应用

百度实时计算平台的实现和应用:等您坐沙发呢!

发表评论


读者排行