浅论Hadoop应用工作思路

时间:14-12-30 栏目:大数据技术文章 作者:爱说云网 评论:0 点击: 1,434 次

随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论:

 

首先最重要的是建立一支以开发人员为主的团队。

Hadoop虽然很火,但是还是在初级阶段,开源的东西存在业务不完全匹配,成熟度低等诸多问题。所以不管是什么公司,什么部门,应该建设一支以开发人员为主的团队。立足于能读懂开源代码,能修改bug,可以根据自己的场景进行适度匹配。

团队建立之后,以团队技能成熟度模型为指导,牵引团队技能逐渐成熟,达到事成人爽。关于团队成熟度,以前写过一篇博文《开源软件使用3level》。

活都是人干出来的,好的团队,事情能干成,差的团队也能把事情干砸,所以各个公司的老板,经理再打算部署hadoop时,先应该把团队建设放首位。

 

第二,确立工作总体思路。基于自己公司的当前现状,业务的需求,每个阶段都应该确立工作的指导思路。是自立更生为主,还是应用为主。指导思路确定,工作工作才能有条不紊的开展。不同阶段的,思路应该是不一样,不要抱残守缺。IT行业变化很快,工作思路也应该根据客观条件的变化积极转变。

 

第三,重视知识管理。Hadoop技术发展很快,各种开源软件日新月异,知识爆炸很厉害。所以追踪开源发展,各种技术的学习天天有。整个团队要重视知识管理,知识技能可以得到继承。团队成员的流失和新加入,应该不会明显影响整个团队成熟度。

 

第四,创建自己的bendchmark。每种业务对应不同的场景,所以hadoop应用团队开展工作的第一件事情,就是建立适合自己业务的bendchmark。最好的不一定好,合适的才是最好。

 

第五,选型应该坚持one fit a branch。没有一个包打天下的组件和解决方案。各种组件应该组合思路,各取所长。

相关文章

网易大数据平台的Spark技术实践-技术方案...
views 1217
网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销。 实时计算指针对只读(Read On...
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel...
views 1742
Google在2003年到2004年公布了关于GFS、 MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”—— Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。 Mike Ols...
2015年度大数据发展十大预测
views 1528
《中国大数据技术与产业发展白皮书(2014年)》针对2015年度大数据发展做了十大预测,他们分别是: 一、结合智能计算的大数据分析成为热点,包括大数据与神经计算、深度学习、语义计算以及人工智能其他相关技术结合,成为大数据分析领域的热点。大数据分析的核心是从数据中获取价值,价值体现在从大数据中获取更...
11·11单日1400万单的背后:京东技术首次全解密...
views 1518
随着移动终端和移动应用的发展将互联网的边界从空间和时间维度无限延伸,企业互联网的构建也成为2014年企业IT的一大主题,互联网用户体验的保障则是企业面临的一道坎。在此背景下,阿里、京东等中国电商巨头如何通过技术创新来保证海量订单压力下的用户体验,成为业界研究的热门对象。 对于京东的技术团队而言,由于...
百度大数据洞察:“数”说年轻女性的自我世界-应用案例...
views 1497
  百度大数据带您透视小世界里的大女人精神。小世界指的是新一代年轻女性的自我世界,寓意每一个小小的我都是一个世界;大女人寓意新一代年轻女性脱离集体意识形态,不再完全秉承传统女性小鸟依人式的附属与顺从,而体现为一种独立自主的精神、一种大女人的情怀。   新一代年轻女性自我意识崛起下的3个需求层次  ...
大数据时代的危害性与局限性
views 2671
2月3日消息,白宫去年曾发表书面声明称,“大数据将作为历史性的驱动因素,帮助美国持久性地促进社会与经济活力”,其创造的社会价值与经济价值得以遵从该国提倡的“隐私、公正、平等、自主”。然而事实真的如此吗?大数据时代的危害性与局限性又是否会赶超其效益性? 某知名评论人表示,白宫这一努力平衡大数据成...
机器学习的9个基础概念和10种基本算法总结-...
views 1771
1.基础概念:   (1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均...
大数据被媒体和一帮理工文盲玩坏了
views 1260
 现在大数据被媒体一帮理工文盲玩坏了。。。觉得数据量大就是大数据,或者甚至里面数字大也是大数据。。。。唉 请问统计个搜索量跟大数据有什么关系......   所谓Big Data其实是有两部分组成的。一部分是海量运算存储能力,一部分是数据建模算法。   第二部分其实是一个蛮久的学科了。20年...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 浅论Hadoop应用工作思路

浅论Hadoop应用工作思路:等您坐沙发呢!

发表评论


读者排行