管中窥豹:腾讯大数据平台

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 2,122 次

腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。

下面这个图是腾讯的技术架构图:

整个系统相对比较简单,主要有以下几大组件组成。

TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅”模型的分布式消息中间件,它起到了很好的缓存和缓冲作用,系统类似kafka,目前的资料不清楚,是否是kafka改造而来?

TDW(Tencent distributed Data Warehouse):腾讯分布式数据仓库。主要支持海量数据的的离线存储和计算,TDW集群总设备8400台,单集群最大规模5600台,总存储数据超过100PB,日均计算量超过5PB,日均Job数达到100万个。TDW是基于Hive优化的,主要是从易用性和性能上做了优化,HIVE的性能再优化针对小数据无能为力。所以后面腾讯研究方向是HBASE和spark。

TRC是基于开源的Storm深度定制的流式处理引擎,用JAVA重写了Storm的核心代码。为了解决了资源利用率和集群规模的问题,重构了底层调度模块,实现了任务级别的权限管理、资源分配、资源隔离。结果集存储在HBASE和Postgre中,用传统的Postgre主要是解决HADOOP update性能低的问题。

Gaia,名字挺吓人,实际上基于YARN,自研Sfair (Scalable fair scheduler)调度器,优化调度逻辑,提供更好的可扩展性,并进一步增强调度的公平性,提升可定制化,将调度吞吐提升10倍以上。

整个数据平台业务上主要支撑的有精准推荐,实时多维分析,秒级监控,腾讯分析、信鸽等。

  1. 从互联网整个行业来看,腾讯在技术上相对来说并不开放,公开的资源较少,代码开源的就更少,所以能分析的资料非常少。腾讯走的是基于成熟开源的软件然后根据自己的需求深度重构的思路,和阿里差不多。

  2. 从腾讯使用HIVE/STORM来看,腾讯起步比较早,选用HIVE/STORM,当前业界比较火的又是spark。

  3. 腾讯的系统主要还是支撑内部需求,开放比较少,希望腾讯后面可以将优化思路和业界广泛交流下,最好当能是能开源一些项目,为社区贡献力量。

相关文章

欧美国家大数据战略及市场情况
views 1953
大数据正逐渐走进社会经济生活的方方面面,科学研究、市场营销、客户服务、可持续发展、交通、医疗、教育等领域都有其用武之地。许多人相信,随着数据量的持续增长和分析工具的日益完善,大数据必将在未来社会中扮演者重要角色。 在欧美国家,有关大数据的讨论也正如火如荼: 一、国家战略 在欧美国家,大多数国家推出的...
大数据基础知识:分布式计算、服务器集群-...
views 1753
大数据的数据量是非常大的,都是达到了PB的级别。在这么大的数据当中,包括了结构化数据和非结构化数据。其中结构化数据包括了数字、符号等数据,非结构化数据包括了文本、图像、声音、视频等数据。这让大数据在存储和处理的过程当中就不能用传统的数据库关系去完成了。在大数据里面,最有价值的信息就在这里面,所以这个...
云计算、大数据、物联网发展趋势
views 1975
 1.个人和企业等将在技术上花费21000亿美元   更多   信息产业的研究报告   2014-2018年版信息产业园区定位规划及招商策略2008-2009年中国信息产业发展研究年度总报告2008-2009年中国台湾地区 信息产业发展研究年度2008-2009年欧盟信息产业发展研究年度报告2008...
IBM推出新一代的数据云服务,帮助企业“多知先觉”...
views 1699
IBM公司近期宣布推出新一代的基于IBM云的数据服务,从而确保企业和组织机构中可以更为便捷地应用更为可靠的信息。 在大数据无处不在的世界里,随时获取和利用洞察力意味着比对手获得更大的竞争优势。如今,“在分析领域上每投入1美金,将得到13.01美金的回报”,这相比3年前提高了1.2倍 。一些新的基于云...
开源云平台 CloudStack 4.1.0 安装详解 – 5、基本资源域...
views 2560
CloudStack拥有强大的硬件管理能力,可以把企业的内部硬件资源统一管理起来,虚拟化为一个硬件资源池,实现按需分配。 CloudStack对硬件资源的管理功能全部放在“基础架构”菜单下。 登录后,选择左侧导航上的“基础架构”–>区域–>添加区域。 区域是CloudStack中最大的范...
大数据思维下的新闻编辑学
views 1504
   大数据时代带来的思维变革,在数据视觉化、关联性思维和预测性思维等方面对传统的编辑思维发生着影响。在大数据与媒介融合背景下推进编辑课程改革,需要延长传统的“新闻编辑链”,实现新闻业务之间完全融合;引入“云报纸”等云技术新闻产品,刷新编辑学的研究客体;实现新闻编辑与史论的融合;实现从重方法到重创意...
如何结合大数据与云计算?
views 1655
  你如何在大数据的海洋寻宝?对于那些拥有庞大信息需要处理的企业,在数据分析之前要克服的第一个障碍就是--不能够定位到相关并且有意义的信息。这也是HGST遇到的问题,HGST(日立环球存储科技公司)是一个计算机硬件的主要生产厂商,他们现在迫切需要追踪在生产设施上收集到的数据。据HGST的云计算与高性...
MPP DB 是 大数据实时分析系统 未来的选择吗?...
views 2577
大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMP...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 管中窥豹:腾讯大数据平台

管中窥豹:腾讯大数据平台:等您坐沙发呢!

发表评论


读者排行