试读《大数据时代的IT架构设计》

时间:14-07-10 栏目:大数据 作者:爱说云网 评论:0 点击: 1,444 次

大数据”的概念是在最早经历信息爆炸的学科--天文学和基因学中提出来的,而今已经渗透到了各行各业和生活中的方方面面。牛津大学教授维克托曾在《大数据时代》一书中指出,通过对海量数据进行分析,能够获得有巨大价值的产品和服务,或深刻的洞见。大数据引起了商业变革,管理变革,以致思维变革。调整信息系统的架构,使之能够适应大数据时代的需要,成为了工程师们的一个重要课题。

试读章节主要有四个篇章,前两部分分别从电信运营商上网日志的处理和金融银行业的需求谈起,首先阐释了已有的方案以及不足。

对于电信上网日志分析系统,面临的主要问题:

1. 日志数据量巨大,只能够短期保存

2. 基于详细通话记录为主的客户行为分析可能缺失了大量的客户行为有效信息,从而得不到有指导意义的分析结果

而随着信息量的增长,金融银行业以往所使用的关系型数据库不能够满足数据存储的需求。在业务数据处理和历史数据备份两个方面遇到了以下问题:

1. 增加机器性能和存储空间,这将加大核心系统的运营维护成本

2. 大量数据离线存储,将导致客户无法快速获取交易信息,银行自身也很难依据此数据指定决策

这两个例子恰好体现了大数据时代对于IT架构的两个基本需求,一是存储,二是计算。两个案例不约而同地采用Hadoop作为解决方案,也恰恰体现了Hadoop的优势所在:能够实现低成本的海量数据存储,支持分布式计算和数据挖掘。对于海量数据存储和计算,谷歌实验室有关于GFS和Map/Reduce的论文分别讨论。而Hadoop项目也正是受了这两篇论文的启发而建立。

试读的的前两个章节侧重于Hadoop的应用,对于Hadoop集群本身并未作太多技术细节的探讨。后两个章节,优酷土豆和淘宝的工程师,则结合自己公司内的实际应用,讨论了相关的技术细节。

第三章节主要讨论集群安全。身份认证、用户权限以及Web界面访问控制都是Hadoop集群所存在的安全问题。

Kerberos(地狱三头看门狗)的引入,一定程度上解决了这些问题。Kerberos主要由两部分构成,Identity Store主要包含身份认证信息,KDC则是密钥分发服务器。为解决单点故障问题,KDC服务本身也被配置成了主从式,并通过脚本实现主从库中认证信息的同步,从而增强了Kerbeors的可靠性。

为保证平台的安全运营,还应强调操作的安全规范和实时监控。

不得不承认淘宝对于分布式技术的贡献,以及其技术团队的执行力。第四章节阐释了TFS的技术细节。下面是GFS与TFS架构的对比

由开源中收益,并回馈开源社区。这是每一个IT公司及工程师所应做的。第四章节介绍了TFS的系统架构、存储机制,扩容和容灾等,这些都与GFS类似,可看作GFS论文的中文通俗版。最后提出了TFS的发展方向,而这也是每一个分布式系统的发展方向--在保证数据可靠性的基础上提高服务效率、降低存储以及运维成本。

相关文章

谷歌技术”三宝”之谷歌文件系统(GFS) — 大数据云计算时代...
views 2273
虽然"The Google File System " 是 03年发表的老文章了,但现在仍被广泛讨论,其对后来的分布式文件系统设计具有指导意义。然而,作者在设计GFS时,是基于过去很多实验观察的,并提出了 很多假设作为前提,这等于给出了一个GFS的应用场景。所以我们自己在设计分布式系统时,一定要注意...
谷歌技术”三宝”之BigTable — 大数据云计算时代...
views 1641
2006年的OSDI有两篇google的论文,分别 是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统, 构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了Big...
大数据2015年或成IBM核心业务
views 1194
12月24日消息,据国外媒体报道,随着2014年年终的日子越来越近,IBM的股价却仍然在地位徘徊。过去十年时间里,IBM的收益的增长速度曾经令人惊叹。然而进入2014年之后IBM的业绩就开始衰败,一些市场分析人士对于2015年IBM的表现也并无太高的期许。在笔者看来,IBM在日益激烈的行业竞争中已...
开源云平台 CloudStack 4.1.0 安装详解 – 5、基本资源域...
views 2077
CloudStack拥有强大的硬件管理能力,可以把企业的内部硬件资源统一管理起来,虚拟化为一个硬件资源池,实现按需分配。 CloudStack对硬件资源的管理功能全部放在“基础架构”菜单下。 登录后,选择左侧导航上的“基础架构”–>区域–>添加区域。 区域是CloudStack中最大的范...
云计算“三国时代”:百度有开发者,阿里靠中间人,腾讯要突围...
views 1633
云计算“三国时代”:百度有开发者,阿里靠中间人,腾讯要突围   自从2013年9月腾讯云推出之后,中国云计算市场正式进入三国时代。尽管微软、亚马逊云服务均已入华,中国三大运营商也有云计算产品,京东、新浪等“小巨头”也有云计算产品,但相比三大互联网巨头而言,它们并没有多少存在感。云计算不...
大数据的大价值
views 1296
社交媒体、物联网和电子商务的兴起,正在促使企业审视数据战略,希望从大数据分析中挖掘更多的商业价值。   3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在YouTube等...
移动互联时代CFO变身记
views 1784
美国零售巨头Target在邮件中向一位中学女生推荐孕婴用品及其优惠券,被其父亲强烈质疑与抗议,在获得道歉后,父亲却发现女儿真的怀孕了。Target这个广为流传的故事,被认为是其在大数据营销等方面精密的探索。 不过在客户身上搜集信息用于营销决策,也可能存在数据安全的风险。2014年1月,Target公...
Spark的现状与未来发展-技术方案-
views 1190
Spark的发展 对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯 克利大学AMPLab,最开初属于伯克利大学的研究性项目。它于2010年正式开源,并于2013年成为了Aparch基金项目,并于2014年成为...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 试读《大数据时代的IT架构设计》

试读《大数据时代的IT架构设计》:等您坐沙发呢!

发表评论


读者排行