MPP DB 是 大数据实时分析系统 未来的选择吗?

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 2,937 次

大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。

当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好的解决方案,这两天和人讨论到MPP DB(分布式数据库,以Greenplum为最典型代表)。如果从性能来讲,MPP DB在多维复杂查询性能确实要好于HIVE/HBASE/IMPALA等,因此有不少声音认为,MPP DB是适合这种场景的未来的解决方案。MPP DB看似对多维度复杂查询性能较好,但是同时有两个致命的缺点,大家选型的时候不得不考虑:

1、扩展性:

MPP DB都号称都能扩展到1000个节点以上,实际在应用过程中,就我目前从公开资料看到的不超过100个节点,如支付宝中用Greenplum来做财务数据分析的最大一个集群60多台机器。另外和Greenplum公司交流,在广东移动最大的用来做数据存储的,也就100台以内。这和hadoop动不动4,5千个节点一个节点集群简直不在一个数量级上。

为什么MPP DB扩展性不好?

有很多原因,有产品成熟度,也有应用广度的问题,但是最根本的还是架构本身的问题。讲到架构这里就要先讲下CAP原则:

Consistency(一致性), 数据一致更新,所有数据变动都是同步的
Availability(可用性), 好的响应性能
Partition tolerance(分区容错性可靠性

定理:任何分布式系统只可同时满足二点,没法三者兼顾。
忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。

MPP DB还是基于原DB扩展而来,DB里面天然追求一致性(Consistency),必然带来分区容错性较差。集群规模变得太大,业务数据太多时,MPP DB的元数据管理就完全是一个灾难。元数据巨大无比,一旦出错很难恢复,动不动导致毁库。

所以MPP DB要在扩展性上有质的提示,要对元数据,以及数据存储有架构上的突破,降低对一致性的要求,这样扩展性才能提升,否则的话很难相信一个MPP DB数据库是可以容易扩展的。

 

2、并发的支持:

一个查询系统,设计出来就是提供人用的,所以能支持的同时并发越高越好。MPP DB核心原理是一个大的查询通过分析为一一个子查询,分布到底层的执行,最后再合并结果,说白了就是通过多线程并发来暴力SCAN来实现高速。这种暴力SCAN的方法,对单个查询来说,动用了整个系统的能力,单个查询比较快,但同时带来用力过猛的问题,整个系统能支持的并发必然不高,从目前实际使用的经验来说,也就支持50~100的并发能力。

当前HBASE/IMPALA应对复杂查询时,也是通过全盘SCAN的方法来实现的,这种场景下,硬盘数量越多越好,转速越快越好。HBASE为什么号称支持上千并发,这也是在特定的场景下(查询时带用户标示,即带row key)才能实现的,复杂查询场景下,什么系统都歇菜。

 

所以MPP DB应用场景已经非常明显了,适合小集群(100以内),低并发的(50左右)的场景。MPP DB未来是不是趋势,我不知道,但是至少目前来看,用MPP DB来应对大数据的实时分析系统是非常吃力的。

 

相关文章

企业信息安全面临“云挑战”
views 2168
如果你是Microsoft、Adobe或任意其它主要的商业软件厂商,千万不要给大陆航空公司的首席信息安全官Tim Stanley添堵,他不是被大量急需修复的bug缠身就是缺乏应对那些问题的资源。 “不要告诉我你下决心修复漏洞的痛苦,我不关心这些。你本身就是干软件行业的,那些代码是你写出来的,出现的问...
浅析大数据与云计算物联网等热点的关系...
views 1914
  大数据时代的到来,是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 近几年大数据一词的持续升温也带来了大数据泡沫的疑虑,大数据的前景与目前云计算、物联网...
云计算重点应用领域发展趋势-战略性新兴产业...
views 2173
  目前,云计算在中国主要行业应用还仅仅是“冰山一角”,但随着本土化云计算技术产品、解决方案的不断成熟,云计算理念的迅速推广普及,云计算必将成为未来中国重要行业领域的主流IT应用模式,为重点行业用户的信息化建设与IT运维管理工作奠定核心基础,根据笔者对中国重要行业领域信息化建设现状与未来...
百度实时计算平台的实现和应用
views 1937
百度实时计算平台的实现和应用     “大数据”在互联网行业中已是普遍现象,一家公司每天累积的用户行为数据甚至已不能用TB来衡量。海量数据对实时分析和计算提出了更高的要求,实时处理程序必须确保在严格的时间内响应,通常以秒为单位,甚至是毫秒。传统的批量计算模型已无法满足这些要...
国务院推六项政策扶持小微企业
views 1860
国务院总理李克强9月17日主持召开国务院常务会议,部署进一步扶持小微企业发展推动大众创业万众创新,决定全面建立临时救助制度、为困难群众兜底线救急难。  李克强说,今年经济下行压力依然很大,特别是七八月份以来增速放缓,但就业仍然实现了稳定增长。他说,“这里既有服务业增长的因素,但更重要的,还是通过改革...
IBM推出新一代的数据云服务,帮助企业“多知先觉”...
views 1699
IBM公司近期宣布推出新一代的基于IBM云的数据服务,从而确保企业和组织机构中可以更为便捷地应用更为可靠的信息。 在大数据无处不在的世界里,随时获取和利用洞察力意味着比对手获得更大的竞争优势。如今,“在分析领域上每投入1美金,将得到13.01美金的回报”,这相比3年前提高了1.2倍 。一些新的基于云...
谈云计算时代的大众草根创业
views 1642
当前社会存在一个很严重的错误观点,把创业和获取个人财富等同起来。这种思想来自资本主义早期的市场状态,经济学家们并没有根据科技的发展而进行修正。出现这种现象的原因在于提出这些观点的专家是西方人,受西方“还原论”文化的影响,强调有形的局部事件,而不考虑无形的整体效果。        《易经•系辞》:形而...
云计算大数据联手PE资本 最佳投资时机来临...
views 1720
  5月20日-23日,第六届云计算大会在北京举行。大会上,中国电子学会与北京藏山资本投资有限公司共同发起成立“中国云计算、大数据产业发展基金”。藏山资本作为中国电子学会在云计算、大数据方面唯一的资本合作方,基金一期规模2亿元人民币,主要投资于国内云计算、大数据等产业领域的成长型优秀企业。   行业...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: MPP DB 是 大数据实时分析系统 未来的选择吗?

MPP DB 是 大数据实时分析系统 未来的选择吗?:等您坐沙发呢!

发表评论


读者排行