浅论Hadoop应用工作思路

时间:14-12-30 栏目:大数据技术文章 作者:爱说云网 评论:0 点击: 1,464 次

随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论:

 

首先最重要的是建立一支以开发人员为主的团队。

Hadoop虽然很火,但是还是在初级阶段,开源的东西存在业务不完全匹配,成熟度低等诸多问题。所以不管是什么公司,什么部门,应该建设一支以开发人员为主的团队。立足于能读懂开源代码,能修改bug,可以根据自己的场景进行适度匹配。

团队建立之后,以团队技能成熟度模型为指导,牵引团队技能逐渐成熟,达到事成人爽。关于团队成熟度,以前写过一篇博文《开源软件使用3level》。

活都是人干出来的,好的团队,事情能干成,差的团队也能把事情干砸,所以各个公司的老板,经理再打算部署hadoop时,先应该把团队建设放首位。

 

第二,确立工作总体思路。基于自己公司的当前现状,业务的需求,每个阶段都应该确立工作的指导思路。是自立更生为主,还是应用为主。指导思路确定,工作工作才能有条不紊的开展。不同阶段的,思路应该是不一样,不要抱残守缺。IT行业变化很快,工作思路也应该根据客观条件的变化积极转变。

 

第三,重视知识管理。Hadoop技术发展很快,各种开源软件日新月异,知识爆炸很厉害。所以追踪开源发展,各种技术的学习天天有。整个团队要重视知识管理,知识技能可以得到继承。团队成员的流失和新加入,应该不会明显影响整个团队成熟度。

 

第四,创建自己的bendchmark。每种业务对应不同的场景,所以hadoop应用团队开展工作的第一件事情,就是建立适合自己业务的bendchmark。最好的不一定好,合适的才是最好。

 

第五,选型应该坚持one fit a branch。没有一个包打天下的组件和解决方案。各种组件应该组合思路,各取所长。

相关文章

大数据时代的危害性与局限性
views 2733
2月3日消息,白宫去年曾发表书面声明称,“大数据将作为历史性的驱动因素,帮助美国持久性地促进社会与经济活力”,其创造的社会价值与经济价值得以遵从该国提倡的“隐私、公正、平等、自主”。然而事实真的如此吗?大数据时代的危害性与局限性又是否会赶超其效益性? 某知名评论人表示,白宫这一努力平衡大数据成...
阿里云与河北省共建智慧河北 打造统一数字化服务平台...
views 1929
6月27日上午,河北省人民政府与阿里巴巴集团达成战略合作。河北省将阿里云计算纳入政府集中采购目录。阿里云计算为河北省电子政务、城市管理及民生服务等领域提供统一的数字化服务平台,共同建设基于云计算、大数据与数字互联网的智慧河北。 便民服务方面,双方将结合河北省便民服务网,依托支付宝便民服务窗,推动河...
mongodb备份与恢复方法大全
views 3832
一. 备份单台mongodb 1. 文件快照方式 2. 复制数据文件方式 3. 使用mongodump方式 二. 备份复制集 1. 将复制集中要恢复的成员移除集群 2. 运行mongorestore --oplogReplay命令 3. 创建oplog 4. 恢复oplog ...
为什么社交网络中数据翻页技术复杂-技术方案...
views 1301
最近讨论的一个传统的问题,问题本身比较简单,针对key-list类型的数据,如何优化方案做到性能与成本的tradeoff。Key-list 在社交产品及面向用户的产品中非常普遍,如一个用户的好友关系 {“uid”:{1,2,3,4,5}},表示某个uid有1,2,3,4,5好友;一条微博下面的评论i...
GFS(Google File System)介绍 — 大数据云计算时代...
views 1843
Google文件系统(Google File System,GFS)是一个大型的分布式文件系统。它为Google云计算提供海量存储,并且与Chubby、MapReduce以及Bigtable 等技术结合十分紧密,处于所有核心技术的底层。由于GFS并不是一个开源的系统,我们仅仅能从Google公布的技...
如何应对云计算大数据带来的法律问题...
views 1839
云计算给人们带来的一个最直观的感觉就是,大量的数据集中在“云”里,抬头观天,“我”在哪里?   物联网给人们最直观的感觉是,任何一个结点的传感器都在收集数据,低头看路,“陷阱”在哪里。   当一个人如此多的信息被陌生的机构掌握时,产生恐惧和不安全感一定是很正常的事情,于是自然会想到一个问题,如何...
大数据时代驾到:1万亿云计算蛋糕诱惑开始“接地气”...
views 2030
目前互联网应用更多的是消费者,未来将是工业互联网时代,规模要比现在大很多倍   6月5日至7日,第五届中国云计算大会在北京召开。阿里巴巴、百度、金山、IBM、新浪、雅虎等互联网公司技术负责人以及中国移动运营商悉数到场。   尽管北京接连几日大雨,但这并没有熄灭技术爱好者的热情,国家会议中心四楼600...
大数据基础知识:分布式计算、服务器集群-...
views 1456
大数据的数据量是非常大的,都是达到了PB的级别。在这么大的数据当中,包括了结构化数据和非结构化数据。其中结构化数据包括了数字、符号等数据,非结构化数据包括了文本、图像、声音、视频等数据。这让大数据在存储和处理的过程当中就不能用传统的数据库关系去完成了。在大数据里面,最有价值的信息就在这里面,所以这个...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 浅论Hadoop应用工作思路

浅论Hadoop应用工作思路:等您坐沙发呢!

发表评论


读者排行