MPP DB 是 大数据实时分析系统 未来的选择吗?

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 2,719 次

大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。

当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好的解决方案,这两天和人讨论到MPP DB(分布式数据库,以Greenplum为最典型代表)。如果从性能来讲,MPP DB在多维复杂查询性能确实要好于HIVE/HBASE/IMPALA等,因此有不少声音认为,MPP DB是适合这种场景的未来的解决方案。MPP DB看似对多维度复杂查询性能较好,但是同时有两个致命的缺点,大家选型的时候不得不考虑:

1、扩展性:

MPP DB都号称都能扩展到1000个节点以上,实际在应用过程中,就我目前从公开资料看到的不超过100个节点,如支付宝中用Greenplum来做财务数据分析的最大一个集群60多台机器。另外和Greenplum公司交流,在广东移动最大的用来做数据存储的,也就100台以内。这和hadoop动不动4,5千个节点一个节点集群简直不在一个数量级上。

为什么MPP DB扩展性不好?

有很多原因,有产品成熟度,也有应用广度的问题,但是最根本的还是架构本身的问题。讲到架构这里就要先讲下CAP原则:

Consistency(一致性), 数据一致更新,所有数据变动都是同步的
Availability(可用性), 好的响应性能
Partition tolerance(分区容错性可靠性

定理:任何分布式系统只可同时满足二点,没法三者兼顾。
忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。

MPP DB还是基于原DB扩展而来,DB里面天然追求一致性(Consistency),必然带来分区容错性较差。集群规模变得太大,业务数据太多时,MPP DB的元数据管理就完全是一个灾难。元数据巨大无比,一旦出错很难恢复,动不动导致毁库。

所以MPP DB要在扩展性上有质的提示,要对元数据,以及数据存储有架构上的突破,降低对一致性的要求,这样扩展性才能提升,否则的话很难相信一个MPP DB数据库是可以容易扩展的。

 

2、并发的支持:

一个查询系统,设计出来就是提供人用的,所以能支持的同时并发越高越好。MPP DB核心原理是一个大的查询通过分析为一一个子查询,分布到底层的执行,最后再合并结果,说白了就是通过多线程并发来暴力SCAN来实现高速。这种暴力SCAN的方法,对单个查询来说,动用了整个系统的能力,单个查询比较快,但同时带来用力过猛的问题,整个系统能支持的并发必然不高,从目前实际使用的经验来说,也就支持50~100的并发能力。

当前HBASE/IMPALA应对复杂查询时,也是通过全盘SCAN的方法来实现的,这种场景下,硬盘数量越多越好,转速越快越好。HBASE为什么号称支持上千并发,这也是在特定的场景下(查询时带用户标示,即带row key)才能实现的,复杂查询场景下,什么系统都歇菜。

 

所以MPP DB应用场景已经非常明显了,适合小集群(100以内),低并发的(50左右)的场景。MPP DB未来是不是趋势,我不知道,但是至少目前来看,用MPP DB来应对大数据的实时分析系统是非常吃力的。

 

相关文章

存储领域6大技术的侵略势力
views 1765
目前存储行业的中心范畴正处于六股实力的猛烈围攻之下,而且其间每股实力都雄心勃勃、期望能将作为现有存储阵列根底之中心网络文件存储及块存储阵列中的部分甚至一切计划彻底击退。 这些新近兴起的实力现已瞄准了块存储与文件存储阵列在数据拜访推迟以及运用本钱等方面存在的致命缺点; 此外现有计划通常在容量与性能的可...
云计算让大数据概念越来越流行
views 1551
摘要: 日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行业的应用。正如云计算等等已经为我们...... 关键词: 云计算大数据     日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行...
大数据和云计算–不仅仅为了大公司...
views 1500
如今,云计算是活蹦乱跳的。举例来说,我住在拉斯维加斯,一个城市充满了创业公司,其中大部分是启动和运行在很短的时间内这在很大程度上归功于对“云”。看看全国各地,真是他的世界。数以百万计小型,中型和大型组织已经接受了它,并看到在这个过程中巨额回报。    或者看看你的手机,你会看到通常的嫌疑人。以消...
大数据与大健康会擦出什么火花?
views 1503
用“黑匣子”表述大数据意义的理论非常形象——问题从一个端口进去,中间是一个集合成千上万数据的“黑匣子”,经过一番计算机工程“提纯”、“钻取”后,有用的信息从另一个端口出去。毫无疑问的是,博云网表示,当大健康穿过大数据这个“黑匣子”,便兼具了“打破传统”和“智慧未来”的巨大推力。两者结合产生出最闪耀的...
无处不在的大数据
views 1540
大数据正把我们变成新的物种。首先,大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维。第二,大数据改变了我们的生产方式,物质产品的生产退居次位,信息产品的加工将成为主要的生产活动。第三,大数据改变了我们的生活方式,我们的精神世界和物质世界都将构建在大数据之上。大数据不仅仅...
玩转大数据:需要知晓的12种工具
views 1356
  无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具。这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具。   在过去的几年里,Derrick看到了很多初创公司,各类项目以及开发工具等等,它们都旨在为...
中国云计算困局
views 1588
连VOIP这种业务,都无法正名化,可见电信一脉对自己固有的收入是多么在意,以及多么强势。在这种大背景下,云计算更多呈现的是一种“概念化”,一种连完整的SAAS都谈不上的低等级应用,一种其实就是Web式Email那个类型的所谓云计算。 有位媒体朋友打电话咨询我一个事。说在江浙一带,有一位搞国际货运代理...
以云计算的速度部署云计算基础设施
views 1383
以云计算的速度部署云计算基础设施 为了以最终用户所需要的速度部署新的基础设施,企业IT部门需要拥有基本模块架构和真正DIY功能的可视化自动化工具。 云计算的两个主要价值就是速度和灵活性。云计算编排和自动化工具有望让IT部门大大加快运营速度,并且成为更具竞争力的服务型部门。虽然一旦虚拟化系统落实到位...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: MPP DB 是 大数据实时分析系统 未来的选择吗?

MPP DB 是 大数据实时分析系统 未来的选择吗?:等您坐沙发呢!

发表评论


读者排行