管中窥豹:腾讯大数据平台

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 2,056 次

腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。

下面这个图是腾讯的技术架构图:

整个系统相对比较简单,主要有以下几大组件组成。

TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅”模型的分布式消息中间件,它起到了很好的缓存和缓冲作用,系统类似kafka,目前的资料不清楚,是否是kafka改造而来?

TDW(Tencent distributed Data Warehouse):腾讯分布式数据仓库。主要支持海量数据的的离线存储和计算,TDW集群总设备8400台,单集群最大规模5600台,总存储数据超过100PB,日均计算量超过5PB,日均Job数达到100万个。TDW是基于Hive优化的,主要是从易用性和性能上做了优化,HIVE的性能再优化针对小数据无能为力。所以后面腾讯研究方向是HBASE和spark。

TRC是基于开源的Storm深度定制的流式处理引擎,用JAVA重写了Storm的核心代码。为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离。结果集存储在HBASE和Postgre中,用传统的Postgre主要是解决HADOOP update性能低的问题。

Gaia,名字挺吓人,实际上基于YARN,自研Sfair (Scalable fair scheduler)调度器,优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化,将调度吞吐提升10倍以上。

整个数据平台业务上主要支撑的有精准推荐,实时多维分析,秒级监控,腾讯分析、信鸽等。

  1. 从互联网整个行业来看,腾讯在技术上相对来说并不开放,公开的资源较少,代码开源的就更少,所以能分析的资料非常少。腾讯走的是基于成熟开源的软件然后根据自己的需求深度重构的思路,和阿里差不多。

  2. 从腾讯使用HIVE/STORM来看,腾讯起步比较早,选用HIVE/STORM,当前业界比较火的又是spark。

  3. 腾讯的系统主要还是支撑内部需求,开放比较少,希望腾讯后面可以将优化思路和业界广泛交流下,最好当能是能开源一些项目,为社区贡献力量。

相关文章

Big Data大数据正在改变生活.创造新生意...
views 1693
从个人电脑发明、网际网路到云端,电脑科技和人们的关系愈来愈紧密,每隔三、五年就会出现新概念,并且期待带来新商机。2012年开始,「Big Data」正成为这个备受瞩目的新概念、新机会。Big Data称为大数据、海量资料或巨量资料,其重要性不在于数据资料有多少,而是人们如何应用软硬体,从各种数据中找...
MPP DB 是 大数据实时分析系统 未来的选择吗?...
views 2520
大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMP...
数据、移动化、云计算、电子商务、绿色IT将成为未来5年迫切需要的五个关键技术...
views 1560
根据市场研究资料的整合,对中国未来5年的IT市场进行了预测。伴随经济的发展,中国IT市场将会持续两位数的增长,尤其在新兴的科技领域,包括业务的自动化、智能化,企业的信息化服务,互联网领域的业务新模式应用都会成为未来IT市场发展的带动力。而对于CIO来说,大数据、移动化、云计算、电子商务、绿色IT将成...
大众点评的大数据实践
views 1639
  这一阶段的主要工作是建立了一个小的集群,并导入了少量用户进行测试。为了满足用户的需求,我们还调研了任务调度系统和数据交换系统。 我们使用的版本是当时最新的稳定版,Hadoop 0.20.203和Hive 0.7.1。此后经历过多次升级与Bugfix。现在使用的是Hadoop 1.0...
云计算让大数据概念越来越流行
views 1713
摘要: 日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行业的应用。正如云计算等等已经为我们...... 关键词: 云计算大数据     日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行...
大数据处理
views 1868
java.util.BitSet可以按位存储。 计算机中一个字节(byte)占8位(bit),我们java中数据至少按字节存储的, 比如一个int占4个字节。 如果遇到大的数据量,这样必然会需要很大存储空间和内存。 如何减少数据占用存储空间和内存可以用算法解决。 java.util.BitSet就提...
浅析大数据与云计算物联网等热点的关系...
views 1846
  大数据时代的到来,是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 近几年大数据一词的持续升温也带来了大数据泡沫的疑虑,大数据的前景与目前云计算、物联网...
如何结合大数据与云计算?
views 1602
  你如何在大数据的海洋寻宝?对于那些拥有庞大信息需要处理的企业,在数据分析之前要克服的第一个障碍就是--不能够定位到相关并且有意义的信息。这也是HGST遇到的问题,HGST(日立环球存储科技公司)是一个计算机硬件的主要生产厂商,他们现在迫切需要追踪在生产设施上收集到的数据。据HGST的云计算与高性...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 管中窥豹:腾讯大数据平台

管中窥豹:腾讯大数据平台:等您坐沙发呢!

发表评论


读者排行