MPP DB 是 大数据实时分析系统 未来的选择吗?

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 2,604 次

大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。

当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好的解决方案,这两天和人讨论到MPP DB(分布式数据库,以Greenplum为最典型代表)。如果从性能来讲,MPP DB在多维复杂查询性能确实要好于HIVE/HBASE/IMPALA等,因此有不少声音认为,MPP DB是适合这种场景的未来的解决方案。MPP DB看似对多维度复杂查询性能较好,但是同时有两个致命的缺点,大家选型的时候不得不考虑:

1、扩展性:

MPP DB都号称都能扩展到1000个节点以上,实际在应用过程中,就我目前从公开资料看到的不超过100个节点,如支付宝中用Greenplum来做财务数据分析的最大一个集群60多台机器。另外和Greenplum公司交流,在广东移动最大的用来做数据存储的,也就100台以内。这和hadoop动不动4,5千个节点一个节点集群简直不在一个数量级上。

为什么MPP DB扩展性不好?

有很多原因,有产品成熟度,也有应用广度的问题,但是最根本的还是架构本身的问题。讲到架构这里就要先讲下CAP原则:

Consistency(一致性), 数据一致更新,所有数据变动都是同步的
Availability(可用性), 好的响应性能
Partition tolerance(分区容错性可靠性

定理:任何分布式系统只可同时满足二点,没法三者兼顾。
忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。

MPP DB还是基于原DB扩展而来,DB里面天然追求一致性(Consistency),必然带来分区容错性较差。集群规模变得太大,业务数据太多时,MPP DB的元数据管理就完全是一个灾难。元数据巨大无比,一旦出错很难恢复,动不动导致毁库。

所以MPP DB要在扩展性上有质的提示,要对元数据,以及数据存储有架构上的突破,降低对一致性的要求,这样扩展性才能提升,否则的话很难相信一个MPP DB数据库是可以容易扩展的。

 

2、并发的支持:

一个查询系统,设计出来就是提供人用的,所以能支持的同时并发越高越好。MPP DB核心原理是一个大的查询通过分析为一一个子查询,分布到底层的执行,最后再合并结果,说白了就是通过多线程并发来暴力SCAN来实现高速。这种暴力SCAN的方法,对单个查询来说,动用了整个系统的能力,单个查询比较快,但同时带来用力过猛的问题,整个系统能支持的并发必然不高,从目前实际使用的经验来说,也就支持50~100的并发能力。

当前HBASE/IMPALA应对复杂查询时,也是通过全盘SCAN的方法来实现的,这种场景下,硬盘数量越多越好,转速越快越好。HBASE为什么号称支持上千并发,这也是在特定的场景下(查询时带用户标示,即带row key)才能实现的,复杂查询场景下,什么系统都歇菜。

 

所以MPP DB应用场景已经非常明显了,适合小集群(100以内),低并发的(50左右)的场景。MPP DB未来是不是趋势,我不知道,但是至少目前来看,用MPP DB来应对大数据的实时分析系统是非常吃力的。

 

相关文章

中小企业信息化建设中存在的主要问题...
views 1283
中小企业信息化建设中存在的主要问题有:   观念问题, 许多企业家认为以现有经营方式、管理方式,企业已经获得了蓬勃发展,不必要赶时髦主追求信息化,而且未必会带来好处,还有的企业管理者认为信息化建设就是买几台计算机,进行一下简单操作,根本没有认识到信息化建设是一项系统工程,是非常复杂的...
大数据挖掘带动的变迁
views 1297
自大数据进入了人们的视线之后,它便逐渐成为人们普遍关注的焦点。大数据讲的是PB时代的科学,本质上大数据的挑战是PB时代的对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战。那么,大数据时代怎么做数据挖掘呢?   在现今时代人们通常所说的大数据主要包括三个来源:第一是自然界大数据,也就是地球上的自然...
玩转大数据:需要知晓的12种工具
views 1251
  无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具。这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具。   在过去的几年里,Derrick看到了很多初创公司,各类项目以及开发工具等等,它们都旨在为...
如何结合大数据与云计算?
views 1333
  你如何在大数据的海洋寻宝?对于那些拥有庞大信息需要处理的企业,在数据分析之前要克服的第一个障碍就是--不能够定位到相关并且有意义的信息。这也是HGST遇到的问题,HGST(日立环球存储科技公司)是一个计算机硬件的主要生产厂商,他们现在迫切需要追踪在生产设施上收集到的数据。据HGST的云计算与高性...
构建云计算必读的十大云经典案例部署...
views 1324
1。以增加销售为目的的内部云   EMC对云的态度不仅仅是“炒作”。EMC利用自身的存储硬件以及数据管理软件,并结合戴尔服务器以及VMware虚拟软件搭建了一个内部的私有云模型,并通过虚拟桌面为其内部员工提供云服务。     EMC的私有云模型提供了从硬件...
大数据的大价值
views 1296
社交媒体、物联网和电子商务的兴起,正在促使企业审视数据战略,希望从大数据分析中挖掘更多的商业价值。   3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在YouTube等...
115浏览器“云社交” 符合3亿个人云存储用户需求...
views 1479
浏览器作为PC端几乎唯一的上网入口,其重要性不言而喻,放眼国内浏览器市场,各大厂商为抢占几乎饱和的市场份额,谁家的浏览器卖点更能满足当下的用户需求,便成了重中之重。115科技于近日推出的全新115浏览器,主打的就是时下乃至未来几年网民迫切需求的“云端体验”,“云社交”服务作为其重要的一部分,已经在1...
云计算再掀创业热潮,19家企业入驻微软创投...
views 1646
云计算天生就是创业的催化剂。2013年,随着国外云务提供商在中国的逐步落地,以及国内BAT等巨头在云计算领域的接次布局,国内的创业浪潮也在不断掀起。与此同时,云服务商也在通过各种渠道,争夺早期用户,包括携手创投资本启动开发者大赛以及孵化器项目等。 首先,这些早期的创业团队一般不会考虑平台的迁移,因...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: MPP DB 是 大数据实时分析系统 未来的选择吗?

MPP DB 是 大数据实时分析系统 未来的选择吗?:等您坐沙发呢!

发表评论


读者排行