大数据分析处理平台的调度应该具备什么能力?

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 1,590 次

本文想讨论下大数据分析处理平台的调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。

谈调度之前,先说说大数据分析处理平台的定义:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、可视呈现等特点。一般来说,大数据分析处理平台有以下几个显著特点:

  1. 规模大,集群化。百度,腾讯,阿里的大数据分析平台目前都在几千甚至上万台X86服务器的规模。
  2. 复杂度高,多个子系统异构。现在很难有一种技术能把所有问题搞定,所以通常是多个子系统混合一起通力合作。
  3. 系统负载高,压力大,从腾讯公布的数据来看,每天完成上百万个任务的执行。
  4. 可靠性要求高,容易维护。

那么调度在整个大数据分析处理平台中起到什么作用?我觉得一个智能、高效的调度应该达到以下几个层面的能力:

  1. 首先是从资源角度,整个系统中要做到高效,就需要一个全局的分配资源的中心。这样才能做到各个子系统资源合理,高效的分配和调度。业界现在最常见的是MESOS,YARN,腾讯基于YARN的基础上改造了GAIA,谷歌公布了他的第三代调度Omega,关于资源管理可以看我前面的文章《资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析》。
  2. 从系统整合角度,整个系统一定是异构的系统,所以调度要支持异构,能整合异构系统来一起完成整个数据的计算,流转,存储以及提供服务。
  3. 从业务角度来看,系统一定的可扩展的,业务可快速定制的,所以调度本身能结合业务进行定制,支持任务的编排,任务的各个子系统的快速迁移。
  4. 从调度本身能力来看,调度本身应该是一个智能的调度,具有自学习,自我调优的能力,一个智能的调度系统才适合业务的不停变化。

相关文章

利用云计算和大数据来防止渔业过度捕捞...
views 1706
谷歌最近推出了一项雄心勃勃的计划:结合云计算、大数据和卫星网络监控全球渔业活动,主要着眼于防止过度捕捞。 太平洋上的渔船信号(来自computerworld.com)     根据海洋环境保护组织Oceana的说法,SkyTruth曾和Oceana一起打造基于卫星数据分析的全局数据平台,可以让市民...
大数据和云计算–不仅仅为了大公司...
views 1394
如今,云计算是活蹦乱跳的。举例来说,我住在拉斯维加斯,一个城市充满了创业公司,其中大部分是启动和运行在很短的时间内这在很大程度上归功于对“云”。看看全国各地,真是他的世界。数以百万计小型,中型和大型组织已经接受了它,并看到在这个过程中巨额回报。    或者看看你的手机,你会看到通常的嫌疑人。以消...
列举不适合大数据处理的10件事情-
views 1977
许多企业领导人开始接纳大数据处理并期待神奇和奇迹,但却发现大数据带来新的复杂性——且从中获益所需要付出的努力要预计中的多得多。   每个组织机构都对大数据应用寄予厚望,期待它可以解答长期存在的业务问题,让他们在市场集中镇南关,在产品、服务交付中更具竞争力。这种对于大数据获益的预期很难实现,除非给...
国务院推六项政策扶持小微企业
views 1488
国务院总理李克强9月17日主持召开国务院常务会议,部署进一步扶持小微企业发展推动大众创业万众创新,决定全面建立临时救助制度、为困难群众兜底线救急难。  李克强说,今年经济下行压力依然很大,特别是七八月份以来增速放缓,但就业仍然实现了稳定增长。他说,“这里既有服务业增长的因素,但更重要的,还是通过改革...
运营商如何玩转大数据
views 1413
  如果说大数据在之前仅仅是人们口头上热炒的一个词的话,今年春节时央视《晚间新闻》启用百度地图定位可视化大数据播报的春节人口迁徙新闻,随后“百度迁徙”的上线通过春运线路、热门迁移城市等海量数据在线服务为“大数据”上演的一幕幕生动情景剧,则形象地说明了大数据走入各行各业的现实。   在盘活大数据价值...
中国云计算困局
views 1482
连VOIP这种业务,都无法正名化,可见电信一脉对自己固有的收入是多么在意,以及多么强势。在这种大背景下,云计算更多呈现的是一种“概念化”,一种连完整的SAAS都谈不上的低等级应用,一种其实就是Web式Email那个类型的所谓云计算。 有位媒体朋友打电话咨询我一个事。说在江浙一带,有一位搞国际货运代理...
数据库大数据访问的常用解决方法
views 1266
1、对海量数据进行分区操作 对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O...
大众点评的大数据实践
views 1314
  这一阶段的主要工作是建立了一个小的集群,并导入了少量用户进行测试。为了满足用户的需求,我们还调研了任务调度系统和数据交换系统。 我们使用的版本是当时最新的稳定版,Hadoop 0.20.203和Hive 0.7.1。此后经历过多次升级与Bugfix。现在使用的是Hadoop 1.0...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 大数据分析处理平台的调度应该具备什么能力?

大数据分析处理平台的调度应该具备什么能力?:等您坐沙发呢!

发表评论


读者排行