MPP DB 是 大数据实时分析系统 未来的选择吗?

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 2,666 次

大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。

当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好的解决方案,这两天和人讨论到MPP DB(分布式数据库,以Greenplum为最典型代表)。如果从性能来讲,MPP DB在多维复杂查询性能确实要好于HIVE/HBASE/IMPALA等,因此有不少声音认为,MPP DB是适合这种场景的未来的解决方案。MPP DB看似对多维度复杂查询性能较好,但是同时有两个致命的缺点,大家选型的时候不得不考虑:

1、扩展性:

MPP DB都号称都能扩展到1000个节点以上,实际在应用过程中,就我目前从公开资料看到的不超过100个节点,如支付宝中用Greenplum来做财务数据分析的最大一个集群60多台机器。另外和Greenplum公司交流,在广东移动最大的用来做数据存储的,也就100台以内。这和hadoop动不动4,5千个节点一个节点集群简直不在一个数量级上。

为什么MPP DB扩展性不好?

有很多原因,有产品成熟度,也有应用广度的问题,但是最根本的还是架构本身的问题。讲到架构这里就要先讲下CAP原则:

Consistency(一致性), 数据一致更新,所有数据变动都是同步的
Availability(可用性), 好的响应性能
Partition tolerance(分区容错性可靠性

定理:任何分布式系统只可同时满足二点,没法三者兼顾。
忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。

MPP DB还是基于原DB扩展而来,DB里面天然追求一致性(Consistency),必然带来分区容错性较差。集群规模变得太大,业务数据太多时,MPP DB的元数据管理就完全是一个灾难。元数据巨大无比,一旦出错很难恢复,动不动导致毁库。

所以MPP DB要在扩展性上有质的提示,要对元数据,以及数据存储有架构上的突破,降低对一致性的要求,这样扩展性才能提升,否则的话很难相信一个MPP DB数据库是可以容易扩展的。

 

2、并发的支持:

一个查询系统,设计出来就是提供人用的,所以能支持的同时并发越高越好。MPP DB核心原理是一个大的查询通过分析为一一个子查询,分布到底层的执行,最后再合并结果,说白了就是通过多线程并发来暴力SCAN来实现高速。这种暴力SCAN的方法,对单个查询来说,动用了整个系统的能力,单个查询比较快,但同时带来用力过猛的问题,整个系统能支持的并发必然不高,从目前实际使用的经验来说,也就支持50~100的并发能力。

当前HBASE/IMPALA应对复杂查询时,也是通过全盘SCAN的方法来实现的,这种场景下,硬盘数量越多越好,转速越快越好。HBASE为什么号称支持上千并发,这也是在特定的场景下(查询时带用户标示,即带row key)才能实现的,复杂查询场景下,什么系统都歇菜。

 

所以MPP DB应用场景已经非常明显了,适合小集群(100以内),低并发的(50左右)的场景。MPP DB未来是不是趋势,我不知道,但是至少目前来看,用MPP DB来应对大数据的实时分析系统是非常吃力的。

 

相关文章

云计算的定义
views 1844
云计算中所指的“云”其实就是一个对于互联网的形象化比喻,由于互联网的网络图很象是一朵云,所以也就把基于互联网的共享计算技术称之为云计算。也可以把云计算理解为将“共享计算”这种技术从本地计算机网络转移到互联网上的一种极为形象的描述。 至于云计算意思确切定义,不同的各研究机构和专家从不同的角度也有着不同...
大数据拼精准 可否触动电商个性营销神经...
views 1271
今日之电商诸侯争霸,可谓火药味甚浓,更推进着产业前进步伐。古语有云:长袖善舞,多钱善贾,意指有所依靠,事情容易成功。随着大数据所爆发出的巨大潜力,在如今的互联网经济时代,玩电商的“有才有财”企业,正在用大数据思维与技术影响着企业业务决策和商业推广思路。可以预测的是,互联网平台大数据分析,正如利剑出鞘...
Google将其云平台开源项目托管于Github – 开源软件...
views 1772
Google的云计算部门近日将其云平台相关的开源项目都移植到了Github中,其中包括App Engine(应用部署平台)、BigQuery(大数据分析平台)、Compute Engine(云计算引擎)、Cloud SQL(云端关系型数据库)和Cloud Storage(云端存储)相关的工具和示例。...
构建云计算必读的十大云经典案例部署...
views 1378
1。以增加销售为目的的内部云   EMC对云的态度不仅仅是“炒作”。EMC利用自身的存储硬件以及数据管理软件,并结合戴尔服务器以及VMware虚拟软件搭建了一个内部的私有云模型,并通过虚拟桌面为其内部员工提供云服务。     EMC的私有云模型提供了从硬件...
Big Data大数据正在改变生活.创造新生意...
views 1471
从个人电脑发明、网际网路到云端,电脑科技和人们的关系愈来愈紧密,每隔三、五年就会出现新概念,并且期待带来新商机。2012年开始,「Big Data」正成为这个备受瞩目的新概念、新机会。Big Data称为大数据、海量资料或巨量资料,其重要性不在于数据资料有多少,而是人们如何应用软硬体,从各种数据中找...
欧美国家大数据战略及市场情况
views 1643
大数据正逐渐走进社会经济生活的方方面面,科学研究、市场营销、客户服务、可持续发展、交通、医疗、教育等领域都有其用武之地。许多人相信,随着数据量的持续增长和分析工具的日益完善,大数据必将在未来社会中扮演者重要角色。 在欧美国家,有关大数据的讨论也正如火如荼: 一、国家战略 在欧美国家,大多数国家推出的...
浪潮云计算服务
views 1850
浪潮云计算服务 浪潮服务器已经越來越多地进入或正在进入金融、电信等关键行业,由于高端商用市场的特点所致,厂商如果想在高端服务器市场求得大发展,除了产品和技术优势外,提供覆盖全程的专家式专业服务是胜算关键。随着应用的发展,用户的需求也在转移,由注重单纯的产品性能转向r商“产品+解决方案+服务”的整体服...
一眼就明白云计算,大数据,移动互联网和物联网之间的关系...
views 2007
我们在《互联网进化论》一书中提出“互联网的未来功能和结构将于人类大脑高度相似,也将具备互联网虚拟感觉,虚拟运动,虚拟中枢,虚拟记忆神经系统” ,并绘制了一幅互联网虚拟大脑结构图。 根据这一观点,我们尝试分析目前互联网最流行的四个概念-------------大数据,云计算,物联网和移动互联网与传统...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: MPP DB 是 大数据实时分析系统 未来的选择吗?

MPP DB 是 大数据实时分析系统 未来的选择吗?:等您坐沙发呢!

发表评论


读者排行