BDTC 2014讲义尝鲜:15家机构论道大数据实战

时间:14-12-19 栏目:大数据 作者:爱说云网 评论:0 点击: 1,653 次

2014中国大数据技术大会已圆满落幕,这里为大家送上本届大会的第一手干货,分别来自Hortonworks、IBM、Intel、VMware、eBay、阿里、腾讯、网易、搜狐、携程等机构。
2014年12月12-14日,作为大数据领域最具影响、规模最大的IT盛会——2014中国大数据技术大会暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店圆满落幕。大会历时三天,来自数十个机构的近百位实践者一起分享了近百场行业趋势与技术实践,携手打造了这场年度云领域顶级技术盛宴。而值得一提的是,会议召开的首日(即12日),大会门票便全面告罄。
我们相信,在参会的朋友之外,有更多大数据玩家因种种原因无法亲历现场。这里,CSDN云计算频道特送上第八届中国大数据技术大会期间出现的部分干货——多个IT领域巨擘带来的大数据架构与应用实践分享。(ps:讲义仅为当下已确认可公开的部分内容,更多内容及更新详见2014中国大数据技术大会 官网)

全体大会(部分讲义)

在全体大会主题演讲环节,包括Hadoop之父、Cloudera首席架构师Doug Cutting,AWS大数据和高性能计算框架全球高级经理Ben Butler,IBM大中华区系统与科技事业部杰出工程师李永辉,卡内基梅隆大学计算机科学系教授Zhang Hui,University of Delaware电子与计算机工程系教授、计算机系统结构和并行系统实验室主任高光荣,卡耐基梅隆大学教授、ICML2014程序主席Eric P. Xing,Conviva联合创始人兼CEO、Huawei EU Research Center研发架构首席架构师Sabri SKHIRI,HBase核心贡献者Ted Yu等十余位大数据领域知名专家分享了国内外最新的技术思想和实践经验。

1. IBM大中华区系统与科技事业部杰出工程师李永辉:IBM Watson 大数据与分析平台(下载传送)

Watson得名于IBM创始人Thomas J. Watson,在2011年IBM 100周年之际,Watson参加了Jeopardy危险边缘电视游戏节目,在经历了三轮的比赛后,最终赢得了冠军。Watson并不是一台机器,是一个集群,一共有2880个节点。设计目标是能解答人类语言自然表达的提问,懂得分析大量非结构性数据,拥有自我学习能力,并能实时回应的计算机。

2. Conviva联合创始人兼CEO、卡内基梅隆大学教授张晖:以用户体验为中心的软件定义基础设施(下载传送)

张晖表示用户的体验是互联网最重要的指标,下一步做的事情不光是以网络为中心而是以用户体验为中心。网络的延迟一直是互联网面临的难题,没有一个很好的办法来解决。但是随着以下三项互联网技术的发展,使得改善用户的互联网体验成为了现实:企业可以从用户端提取细颗粒信息;软件定义的迅速发展;大数据的实时技术发展。
3. University of Delaware电子与计算机工程系教授、计算机系统结构和并行系统实验室创始人暨主任高光荣:大数据系统核心技术(下载传送)

高光荣主要介绍了大数据系统面临的严重挑战,大数据系统核心技术简介,数据流与大数据引擎的创新以及大数据系统发展在中国的机遇与挑战。高光荣表示,他山之石可以攻玉,然而,别人做好的东西我们可以学习和借鉴,就像我们高铁一样,我们使用它来改善交通水平,但是一定要跨越它的发展,要从中国制造到中国创造。
4. Hortonworks资深工程师、Apache HBase核心贡献者Ted Yu:HBase 1.0及2.0的最新进展(下载传送)

Ted Yu介绍HBase1.0和2.0的最新研发进展,主要包括HBase1.0、HydraBase、Phoenix二级索引及Per column family flush的变化。据他介绍,HBase1.0的重大变化包括稳定性、可用性、易用性等方面的提升,如Master 嵌入RegionServer。而HydraBase则提供99.99%或者更高的可用性,当一个集群宕掉以后,能以秒级恢复,并且做到不丢失数据,但采用的是不同的方式。
技术论坛(部分会场)

围绕“大数据生态系统、大数据技术、大数据应用、大数据基础设施”四大技术分论坛,来自Hadoop PMC、OpenStack基金会、Databricks、LinkedIn、Intel、eBay、Dropbox、VMWare、DELL、希捷、阿里巴巴、腾讯、百度、中国移动、华为、浪潮、搜狐、网易、携程、高德、沃尔玛、亚信等海内外一线IT公司的近百位工程师精英,从现实出发彻底剖析大数据技术实践中的问题和解决方案。
大数据技术论坛(部分讲义)

1. 英特尔大数据首席架构师戴金权:基于Spark软件栈的大数据分析(下载传送)

戴金权表示,大数据深入分析大致分为两类:类似SQL数据分析,进行关系型云运算;达到实时、快速的数据分析速度。他认为,利用Spark构建下一代大数据分析,能够为用户构建新的应用场景及新的分析应用。并举例说明Spark与SQL结构式数据结合的方式,对Hive和Parquat进行数据处理。

2. VMware 资深业务解决方案架构师介文清:12306,改变传统思路解决问题的NoSQL实践(下载传送)
介文清以12306为例展开演讲,介绍如何运用NoSQL建设余票查询系统、订单查询系统,并且,实现每秒1万次订单查询、余票10分钟更新一次的频率。介文清表示传统设计的系统架构无法解决,12306网站数据流量问题。系统切换时,将SQL数据库进行抽取,送到NoSQL集群中,数据量进行并行运算,开始新旧系统工作负载在90%—10%之间,运行正常之后可完全放在新系统中运行。
3. 搜狐移动研发部经理刘佳:基于全网内容的新闻客户端推荐系统(下载传送)

刘佳介绍搜狐移动端新闻推荐的两个特点:广告系统,搜狐追求转化率、辅助指标ROI、用户效果。搜索系统,搜索引擎中,追求对内容理解、内容爬取、文本关键词主题提取、文本分类、主题分类、内容索引、垃圾过滤、page rank、反作弊等等。随后,刘佳介绍新闻推荐系统中三俗内容的处理方式。他表示,三俗内容可以提高18%-20%的转化率,但是对用户的粘性有很大的影响。

4. 亚信科技大数据事业部数据资产管理部门产品总监高伟:数据资产管理——大数据时代的掘金术(下载传送)
传统数据管理方式不适合数据资产管理要求,亚信提倡建立一体化全流程的数据资产管理体系,具有以下关键特性:完善的数据治理与管控,高效的数据资产应用,以及创新的数据资产运营。最后,高伟总结道,数据资产管理已达到与CRM相同的高度,并呼吁数据资产管理技术人员,要考虑如何将技术与业务及商业相结合。

5. 阿里巴巴数据平台事业部ODPS技术专家徐冬:ODPS MapReduce 对外开放实践 (下载传送)

徐冬主要谈到ODPS(Open Data Process System)在阿里云巴巴的使用情况;在ODPS上搭建LOT模型;MapReduce实现过程;MapReduce API介绍以及MapReduce API开放用户实践。ODPS作为阿里大规模数据处理的底层平台,每日提交数十万计任务,底层是跨数据中心的超大规模集群,支持多种编程模型、范式。

6. 携程资深软件工程师廖晓格:让大数据更实时和可视化(下载传送)
携程每天的日志量40T,总条数上千亿条,每天用户行为数据30T,并且业务数据飞速增长,所有数据都需要及时反馈给用户,应用或监控。携程大数据平台架构与Hadoop生态环境类似,底层使用HDFS,上面是调度系统,并且通过MapReduce、Spark做离线数据分析,Storm和HBase做在线数据分析。其中HBase是按业务划分,底层构建HBase门禁系统。携程还构建了一套Mobile监控系统和UBT系统,用来跟踪用户行为和用户流量,并形成直观的可视化图像。

大数据应用论坛(部分讲义)

1. Apache Kylin联合建立者、eBay高级产品经理韩卿:Apache Kylin——Hadoop 上的大规模联机分析平台(下载传送)

Kylin是一套由eBay公司打造的开源分布式分析引擎,其突出特性在于能够为Hadoop支持下的庞大数据集带来标准SQL接口与多维分析(OLAP)能力。该项目开源于2014年10月1号,并在11月25日成为Apache的孵化项目。韩卿分享了Apache Kylin的背景以及想要解决的业务问题,以及所采用的技术,并就该项目的主要特性进行了剖析。

2. 中国移动苏州研发中心大数据项目总监徐萌:中国移动大云大数据产品及应用(下载传送)

徐萌表示大云大数据产品线为中国移动大数据应用提供三大领域的基础能力:数据采集和处理、数据挖掘及可视化、运营管理。 关于“大云”大数据应用实践,她强调对内支撑精细化运营,包括支撑客户体验提升、精细营销、产品创新、网络优化、企业管理水平提升;对外寻求新业务增长点,包括支撑行业大数据解决方案、数据变现及社会化洞察等对外服务模式。

3. 腾讯数据平台部精准推荐中心深度学习方向负责人邹永强:Mariana,腾讯深度学习平台的进展和应用(下载传送)

基于深度学习存在的挑战,他们构建了腾讯深度学习平台Mariana,它的目标首先是通过并行加速计算;第二通过模型拆分支持大的模型;第三构建通用的框架简化代码的编写加速实验。对Mariana提出三大框架,第一个MarianaDNN,这是深度神经网络GPU运行的框架;第二个是MarianaCNN;第三个MarianaCluster,它们主要应用就是语音识别、图像识别和广告推荐。

4. 沃尔玛实验室核心数据科学家Zhu Tao:电子商务中的“纳米技术” (下载传送)

Zhu Tao认为,大数据在电子商务中的定义是指在每一个用户下面管理商务。正如纳米技术关注尺度很小的材料,沃尔玛电商大数据主要希望观察到每一个用户,每一个产品如何从沃尔玛流向每一个用户的,进而实现更加智慧更加优秀的用户体验。演讲期间,Zhu Tao对沃尔玛实验室的打包推荐技术进行了详细的剖析。

5. 宜信大数据创新中心研发总监郑华:宜信大数据金融实践分享(下载传送)

宜信大数据实时风控平台结合用户申请数据、用户授权数据、第三方数据、互联网海量数据等不同数据源,基于这些数据分析客户的信用状况和欺诈风险、实时估计授信额度和检测欺诈风险等。郑华分享了宜信大数据实时风控平台中的一些核心技术,包括知识图谱,风控模型和反欺诈技术等。知识图谱的作用是将爬虫从互联网获取的个人和企业的数据结构化,自动分析进件的风险点。

相关文章

大数据应用–实时路况数据
views 1519
现在手机上装个导航软件,如高德地图,百度地图等等都有实时路况显示,导航和道路规划可以根据实时路况来实施,从而动态躲避拥堵,为出行节省时间,为了显示实时路况就必须有路况数据,今天来说下实时数据的获取方法。一般来说有以下几种典型数据来源获取方法: 1、实时路况数据最主要的收集方式,还是浮动车。这个浮动车...
了解用于大数据解决方案的逻辑层-技术方案...
views 1087
文中介绍的模式有助于定义大数据解决方案的参数。本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案。原子模式描述了使用、处理、访问和存储大数据的典型方法。复合模式由原子模式组成,并根据大数据解决方案的范围进行分类。由于每个复合模式都有若干个维度,所以每个模式都有许多变化。复合模式使得业务和技术...
应用破局之云计算创造企业商业价值
views 1159
 马云曾经谈到,互联网本身不是对传统产业的一种替代,而是互联网经济加上这种传统的实体经济,那么最终他融合产生的是一个新经济的一个形态,那么这种新的经济形态应该是一个什么样子,在12月19号举办的CIO年会上,来自阿里云的业务总监刘克鸿先生为我们带了一场,关于应用破局,云计算创造企业商业价值的主题演讲...
浅析大数据与云计算物联网等热点的关系...
views 1317
  大数据时代的到来,是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 近几年大数据一词的持续升温也带来了大数据泡沫的疑虑,大数据的前景与目前云计算、物联网...
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel...
views 1490
Google在2003年到2004年公布了关于GFS、 MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”—— Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。 Mike Ols...
42页PPT干货!R在行动广告大数据的应用-技术方案...
views 1119
网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销。 实时计算指针对只读(Read On...
Big Data大数据正在改变生活.创造新生意...
views 1322
从个人电脑发明、网际网路到云端,电脑科技和人们的关系愈来愈紧密,每隔三、五年就会出现新概念,并且期待带来新商机。2012年开始,「Big Data」正成为这个备受瞩目的新概念、新机会。Big Data称为大数据、海量资料或巨量资料,其重要性不在于数据资料有多少,而是人们如何应用软硬体,从各种数据中找...
11·11单日1400万单的背后:京东技术首次全解密...
views 1320
随着移动终端和移动应用的发展将互联网的边界从空间和时间维度无限延伸,企业互联网的构建也成为2014年企业IT的一大主题,互联网用户体验的保障则是企业面临的一道坎。在此背景下,阿里、京东等中国电商巨头如何通过技术创新来保证海量订单压力下的用户体验,成为业界研究的热门对象。 对于京东的技术团队而言,由于...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: BDTC 2014讲义尝鲜:15家机构论道大数据实战

BDTC 2014讲义尝鲜:15家机构论道大数据实战:等您坐沙发呢!

发表评论


读者排行