BDTC 2014讲义尝鲜:15家机构论道大数据实战

时间:14-12-19 栏目:大数据 作者:爱说云网 评论:0 点击: 1,835 次

2014中国大数据技术大会已圆满落幕,这里为大家送上本届大会的第一手干货,分别来自Hortonworks、IBM、Intel、VMware、eBay、阿里、腾讯、网易、搜狐、携程等机构。
2014年12月12-14日,作为大数据领域最具影响、规模最大的IT盛会——2014中国大数据技术大会暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店圆满落幕。大会历时三天,来自数十个机构的近百位实践者一起分享了近百场行业趋势与技术实践,携手打造了这场年度云领域顶级技术盛宴。而值得一提的是,会议召开的首日(即12日),大会门票便全面告罄。
我们相信,在参会的朋友之外,有更多大数据玩家因种种原因无法亲历现场。这里,CSDN云计算频道特送上第八届中国大数据技术大会期间出现的部分干货——多个IT领域巨擘带来的大数据架构与应用实践分享。(ps:讲义仅为当下已确认可公开的部分内容,更多内容及更新详见2014中国大数据技术大会 官网)

全体大会(部分讲义)

在全体大会主题演讲环节,包括Hadoop之父、Cloudera首席架构师Doug Cutting,AWS大数据和高性能计算框架全球高级经理Ben Butler,IBM大中华区系统与科技事业部杰出工程师李永辉,卡内基梅隆大学计算机科学系教授Zhang Hui,University of Delaware电子与计算机工程系教授、计算机系统结构和并行系统实验室主任高光荣,卡耐基梅隆大学教授、ICML2014程序主席Eric P. Xing,Conviva联合创始人兼CEO、Huawei EU Research Center研发架构首席架构师Sabri SKHIRI,HBase核心贡献者Ted Yu等十余位大数据领域知名专家分享了国内外最新的技术思想和实践经验。

1. IBM大中华区系统与科技事业部杰出工程师李永辉:IBM Watson 大数据与分析平台(下载传送)

Watson得名于IBM创始人Thomas J. Watson,在2011年IBM 100周年之际,Watson参加了Jeopardy危险边缘电视游戏节目,在经历了三轮的比赛后,最终赢得了冠军。Watson并不是一台机器,是一个集群,一共有2880个节点。设计目标是能解答人类语言自然表达的提问,懂得分析大量非结构性数据,拥有自我学习能力,并能实时回应的计算机。

2. Conviva联合创始人兼CEO、卡内基梅隆大学教授张晖:以用户体验为中心的软件定义基础设施(下载传送)

张晖表示用户的体验是互联网最重要的指标,下一步做的事情不光是以网络为中心而是以用户体验为中心。网络的延迟一直是互联网面临的难题,没有一个很好的办法来解决。但是随着以下三项互联网技术的发展,使得改善用户的互联网体验成为了现实:企业可以从用户端提取细颗粒信息;软件定义的迅速发展;大数据的实时技术发展。
3. University of Delaware电子与计算机工程系教授、计算机系统结构和并行系统实验室创始人暨主任高光荣:大数据系统核心技术(下载传送)

高光荣主要介绍了大数据系统面临的严重挑战,大数据系统核心技术简介,数据流与大数据引擎的创新以及大数据系统发展在中国的机遇与挑战。高光荣表示,他山之石可以攻玉,然而,别人做好的东西我们可以学习和借鉴,就像我们高铁一样,我们使用它来改善交通水平,但是一定要跨越它的发展,要从中国制造到中国创造。
4. Hortonworks资深工程师、Apache HBase核心贡献者Ted Yu:HBase 1.0及2.0的最新进展(下载传送)

Ted Yu介绍HBase1.0和2.0的最新研发进展,主要包括HBase1.0、HydraBase、Phoenix二级索引及Per column family flush的变化。据他介绍,HBase1.0的重大变化包括稳定性、可用性、易用性等方面的提升,如Master 嵌入RegionServer。而HydraBase则提供99.99%或者更高的可用性,当一个集群宕掉以后,能以秒级恢复,并且做到不丢失数据,但采用的是不同的方式。
技术论坛(部分会场)

围绕“大数据生态系统、大数据技术、大数据应用、大数据基础设施”四大技术分论坛,来自Hadoop PMC、OpenStack基金会、Databricks、LinkedIn、Intel、eBay、Dropbox、VMWare、DELL、希捷、阿里巴巴、腾讯、百度、中国移动、华为、浪潮、搜狐、网易、携程、高德、沃尔玛、亚信等海内外一线IT公司的近百位工程师精英,从现实出发彻底剖析大数据技术实践中的问题和解决方案。
大数据技术论坛(部分讲义)

1. 英特尔大数据首席架构师戴金权:基于Spark软件栈的大数据分析(下载传送)

戴金权表示,大数据深入分析大致分为两类:类似SQL数据分析,进行关系型云运算;达到实时、快速的数据分析速度。他认为,利用Spark构建下一代大数据分析,能够为用户构建新的应用场景及新的分析应用。并举例说明Spark与SQL结构式数据结合的方式,对Hive和Parquat进行数据处理。

2. VMware 资深业务解决方案架构师介文清:12306,改变传统思路解决问题的NoSQL实践(下载传送)
介文清以12306为例展开演讲,介绍如何运用NoSQL建设余票查询系统、订单查询系统,并且,实现每秒1万次订单查询、余票10分钟更新一次的频率。介文清表示传统设计的系统架构无法解决,12306网站数据流量问题。系统切换时,将SQL数据库进行抽取,送到NoSQL集群中,数据量进行并行运算,开始新旧系统工作负载在90%—10%之间,运行正常之后可完全放在新系统中运行。
3. 搜狐移动研发部经理刘佳:基于全网内容的新闻客户端推荐系统(下载传送)

刘佳介绍搜狐移动端新闻推荐的两个特点:广告系统,搜狐追求转化率、辅助指标ROI、用户效果。搜索系统,搜索引擎中,追求对内容理解、内容爬取、文本关键词主题提取、文本分类、主题分类、内容索引、垃圾过滤、page rank、反作弊等等。随后,刘佳介绍新闻推荐系统中三俗内容的处理方式。他表示,三俗内容可以提高18%-20%的转化率,但是对用户的粘性有很大的影响。

4. 亚信科技大数据事业部数据资产管理部门产品总监高伟:数据资产管理——大数据时代的掘金术(下载传送)
传统数据管理方式不适合数据资产管理要求,亚信提倡建立一体化全流程的数据资产管理体系,具有以下关键特性:完善的数据治理与管控,高效的数据资产应用,以及创新的数据资产运营。最后,高伟总结道,数据资产管理已达到与CRM相同的高度,并呼吁数据资产管理技术人员,要考虑如何将技术与业务及商业相结合。

5. 阿里巴巴数据平台事业部ODPS技术专家徐冬:ODPS MapReduce 对外开放实践 (下载传送)

徐冬主要谈到ODPS(Open Data Process System)在阿里云巴巴的使用情况;在ODPS上搭建LOT模型;MapReduce实现过程;MapReduce API介绍以及MapReduce API开放用户实践。ODPS作为阿里大规模数据处理的底层平台,每日提交数十万计任务,底层是跨数据中心的超大规模集群,支持多种编程模型、范式。

6. 携程资深软件工程师廖晓格:让大数据更实时和可视化(下载传送)
携程每天的日志量40T,总条数上千亿条,每天用户行为数据30T,并且业务数据飞速增长,所有数据都需要及时反馈给用户,应用或监控。携程大数据平台架构与Hadoop生态环境类似,底层使用HDFS,上面是调度系统,并且通过MapReduce、Spark做离线数据分析,Storm和HBase做在线数据分析。其中HBase是按业务划分,底层构建HBase门禁系统。携程还构建了一套Mobile监控系统和UBT系统,用来跟踪用户行为和用户流量,并形成直观的可视化图像。

大数据应用论坛(部分讲义)

1. Apache Kylin联合建立者、eBay高级产品经理韩卿:Apache Kylin——Hadoop 上的大规模联机分析平台(下载传送)

Kylin是一套由eBay公司打造的开源分布式分析引擎,其突出特性在于能够为Hadoop支持下的庞大数据集带来标准SQL接口与多维分析(OLAP)能力。该项目开源于2014年10月1号,并在11月25日成为Apache的孵化项目。韩卿分享了Apache Kylin的背景以及想要解决的业务问题,以及所采用的技术,并就该项目的主要特性进行了剖析。

2. 中国移动苏州研发中心大数据项目总监徐萌:中国移动大云大数据产品及应用(下载传送)

徐萌表示大云大数据产品线为中国移动大数据应用提供三大领域的基础能力:数据采集和处理、数据挖掘及可视化、运营管理。 关于“大云”大数据应用实践,她强调对内支撑精细化运营,包括支撑客户体验提升、精细营销、产品创新、网络优化、企业管理水平提升;对外寻求新业务增长点,包括支撑行业大数据解决方案、数据变现及社会化洞察等对外服务模式。

3. 腾讯数据平台部精准推荐中心深度学习方向负责人邹永强:Mariana,腾讯深度学习平台的进展和应用(下载传送)

基于深度学习存在的挑战,他们构建了腾讯深度学习平台Mariana,它的目标首先是通过并行加速计算;第二通过模型拆分支持大的模型;第三构建通用的框架简化代码的编写加速实验。对Mariana提出三大框架,第一个MarianaDNN,这是深度神经网络GPU运行的框架;第二个是MarianaCNN;第三个MarianaCluster,它们主要应用就是语音识别、图像识别和广告推荐。

4. 沃尔玛实验室核心数据科学家Zhu Tao:电子商务中的“纳米技术” (下载传送)

Zhu Tao认为,大数据在电子商务中的定义是指在每一个用户下面管理商务。正如纳米技术关注尺度很小的材料,沃尔玛电商大数据主要希望观察到每一个用户,每一个产品如何从沃尔玛流向每一个用户的,进而实现更加智慧更加优秀的用户体验。演讲期间,Zhu Tao对沃尔玛实验室的打包推荐技术进行了详细的剖析。

5. 宜信大数据创新中心研发总监郑华:宜信大数据金融实践分享(下载传送)

宜信大数据实时风控平台结合用户申请数据、用户授权数据、第三方数据、互联网海量数据等不同数据源,基于这些数据分析客户的信用状况和欺诈风险、实时估计授信额度和检测欺诈风险等。郑华分享了宜信大数据实时风控平台中的一些核心技术,包括知识图谱,风控模型和反欺诈技术等。知识图谱的作用是将爬虫从互联网获取的个人和企业的数据结构化,自动分析进件的风险点。

相关文章

案例:eBay利用MongoDB优化搜索-技术方案...
views 1751
      eBay使用MongoDB来执行众多涉及大量数据的任务。这些项目包括搜索建议,云管理、元数据存储和商品的分类等。搜索建议是其网站的一个重要特征。MongoDB的使用,为快速向用户给出建议提供了可能。 搜索建议是如何产生的?       当你开始在eBay的搜索框输入查询关键词时,输入...
阿里巴巴欲在云计算领域再造一个双十一...
views 1733
今年双十一阿里巴巴再次打破记录,创造了571亿的天量交易额。对于重兵布局的云计算业务,阿里巴巴希望能够复制双十一的成功,打造一场属于程序员的剁手狂欢。 12月15日消息,阿里云计算宣布将在12月18日对旗下主力云计算产品进行打折促销,云服务商、风投机构等都将参与到这场狂欢中。“我们希望通过降低云的成...
大数据挖掘带动的变迁
views 1297
自大数据进入了人们的视线之后,它便逐渐成为人们普遍关注的焦点。大数据讲的是PB时代的科学,本质上大数据的挑战是PB时代的对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战。那么,大数据时代怎么做数据挖掘呢?   在现今时代人们通常所说的大数据主要包括三个来源:第一是自然界大数据,也就是地球上的自然...
Spark的现状与未来发展-技术方案-
views 1190
Spark的发展 对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯 克利大学AMPLab,最开初属于伯克利大学的研究性项目。它于2010年正式开源,并于2013年成为了Aparch基金项目,并于2014年成为...
浅论Hadoop应用工作思路
views 1345
随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论:   首先最重要的是建立一支以开发人员为主的团队。 Hadoop虽然很火,但是还是在初级阶段,开源的东西存在业务不完全匹配,成熟度低等诸多问题。所以不管是什么公司...
阿里云计算推全新大数据工具“采云间”...
views 1561
25日,阿里云计算发布大数据工具采云间——基于ODPS的简易工具解决方案。利用采云间,中小型公司不用再购买上百万元的商业智能(BI)软件,大大降低大数据分析的门槛。   采云间是一个Web端的在线工具,简称DPC(Data Process Center),内部集成了阿里数据开发者套件和商业智能套件...
大数据的大价值
views 1296
社交媒体、物联网和电子商务的兴起,正在促使企业审视数据战略,希望从大数据分析中挖掘更多的商业价值。   3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在YouTube等...
云计算“走出去”:机遇与挑战并存
views 1809
云计算“走出去”:机遇与挑战并存 2014-10-22 云计算与大数据 云计算是一个能够集中数据和信息资源的产业,因此各国都将其列入严密控制范围之内。例如,我国就对国外云计算企业建设数据中心、开展云服务等有所要求。中国企业在国外也会面临同样的问题。 在近日举行的中俄经济工商界高峰论坛上,某集团...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: BDTC 2014讲义尝鲜:15家机构论道大数据实战

BDTC 2014讲义尝鲜:15家机构论道大数据实战:等您坐沙发呢!

发表评论


读者排行