大数据挖掘带动的变迁

时间:14-07-03 栏目:大数据 作者:爱说云网 评论:0 点击: 1,324 次

自大数据进入了人们的视线之后,它便逐渐成为人们普遍关注的焦点。大数据讲的是PB时代的科学,本质上大数据的挑战是PB时代的对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战。那么,大数据时代怎么做数据挖掘呢?

  在现今时代人们通常所说的大数据主要包括三个来源:第一是自然界大数据,也就是地球上的自然环境,很大很大。第二是生命大数据。第三也是最重要的,则是人们关心的社交大数据。这些数据普遍存在于人们的手机、电脑等设备中。今天一个报告在3分钟之内就可能被全世界的人们所知道。

  奥巴马就职的社交场所,这么多面孔,每一个面孔下都有一个故事,每一个人后面都有大数据的支撑。人脸是数据安全的很重要的识别器,怎么把人脸识别清楚呢?人们想了很多办法。现在北京市有80万个摄像头,我们每天都在摄像头的监督下开车、购物。我们可以利用摄像头做身份认证、年龄识别、情感计算、亲缘发现、心理识别、地区识别、民族识别。这种流媒体主要的形态是非结构化的,特征之间的关联关系、设备算法的准确率等等,都严重地制约着大数据人脸挖掘的进度。如何能从这些海量数据中利用识别算法提取出所需要的特征属性,并理清特征之间的关系都是现在所面临的问题。

  技术推动计算机发展

  1936年天才数学家图灵提出图灵模型,后来有计算机把图灵模型转化为物理计算机,这其中有三大块:CPU、操作系统、内存和外存,还有输入和输出。在计算机发展的头30年里,我们投入最多的是CPU、操作系统、软件、中间件以及应用软件。当时人们侧重于计算性能的提高,我们把这个时代叫做计算时代。

  计算对软件付出了很大的努力,尤其是高性能计算机。我们认为计算在前20年中起到了主导作用,它的标志速度就是摩尔速度。在这样一个计算领先的时代当中,我们主要做的是结构化数据的挖掘。关系数据库之父埃德加在1970年提出一个关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间的联系。三四十年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘成为巨大的信息产业。

  关系代数是关系数据库的形式化理论和约束,先有顶层设计和数据结构,后填入清洗后的数据。数据围绕结构转,数据围绕程序转。用户无需关心数据的获取、存储、分析以及提取过程。通过数据挖掘,可以从数据库中发现分类知识、关联知识、时序知识、异常知识等等。

  随着数据库产业的膨大,人们对数据库已经不太满足了,于是把Databases说成大数据,这便遇到了两个不可回避的挑战,第一个挑战是由于关系代数的形式化约束过于苛刻,无法表示现实数据;第二个挑战是随着数据量的增大,关系代数运算性能急剧下降。在这个时候,我们的存储技术得到了迅猛发展,人类进入了搜索时代。搜索因为存储便宜了,存储的速度大概每9个月翻一番,所以存储带动了技术的脚步,这种搜索时代经过了20多年的发展,带领我们进入了一个半结构化数据挖掘时代。这个时代的代表人物就是万维网之父家蒂姆·伯纳斯—李,他提出了超文本思想,开发了世界上第一个Web服务器,于是我们可以从一台服务器上检索另一台服务器的内容,服务器在软件的支持下可发布包括文本、表格、图片、音视频的碎片化超媒体信息。

  因此,客户端服务器结构和云计算结构蓬勃产生,这时已经没有了关于代数那样严格的形式化约束,依靠的主要是规范、标准,所有媒体均以实体形式存在,甚至是软件,实体通过超链接产生联系。

  形式化理论比关系代数宽松了许多,创建了灵活多样的实体,这时候数据开始围绕实体转,实体围绕链接转。在云计算背景下,数据挖掘也可以看作是云计算环境下的搜索与个性化服务,不存在固定的查询方式,也不会出现唯一、100%准确的查询结果。

  网络化的大数据挖掘

  随着互联网带宽6个月翻一番的速度,人类进入了交互时代,交互带动着计算和存储的发展。

  移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘,这些数据形态反映的是鲜活的、碎片化的、异构的、有情感的原生态数据。

  非结构化数据的特点是,它常常是低价值、强噪声、异构、冗余冰冷的数据,有很多数据放在存储器里就没再用过。数据的形式化约束越来越宽松,越来越接近互联网文化、窗口文化和社区文化。

  关注的对象也发生很大改变,挖掘关注的首先是小众,只有满足小众挖掘需求,才谈得上满足更多小众组成的大众的需求,因此一个重要思想就是由下而上胜过由上而下的顶层设计,强调挖掘数据的真实性、及时性,要发现关联、发现异常、发现趋势,总之要发现价值。

  当前,深度学习也是一种数据自适应简约。如果我们在百度上用深度学习搜索一个人脸象素搜索,这么多人脸谁是谁?数据量急剧增加,各种媒体形态可随意碎片化,组织结构和挖掘程序要围着数据转,程序要碎片化,并可以随时虚拟重组,挖掘常常是人机交互环境下不同社区的发现以及社区中形成的群体智能,在非结构化数据挖掘中,会自然进行数据清洗,自然形成半结构化数据和结构化数据,以提高数据使用效率。

  群体智能是一个最近说得很多的词,我们曾经在计算机上做一个图灵测试,让计算机区分哪些码是人产生的,哪些是机器产生的,这是卡内基美隆大学提出来的,在网络购物、登录网站、申请网站时都会碰到适配码被使用。在此要提到第三个代表人物——路易斯,他提出用这个适配码应用方式。

  如果云计算支撑大数据挖掘要发现价值,那么我们认为云计算本来就是基于互联网的大众参与计算模式,其计算资源是动态的,可收缩的,被虚拟化的,而且以服务的方式提供。 产生摆脱了传统的配置带来的系统升级,更加简洁、灵活多样、个性化,手机、游戏机、数码相机、电视机差别细微,出现了更多iCloud产品,界面人性化、个性化,都可成为大数据挖掘的终端。

  挖掘员支撑各种各样的大数据应用,如果我们有数据收集中心、存储中心、计算中心、服务中心,一定要有数据挖掘中心,这样一来,就可以实现支撑大数据的及时应用和价值的及时发现。

  大数据标志一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来方便的多样化的信息服务,同时还包含区别于物质的数据资源的价值挖掘和价值转换,虚拟世界的信息价值挖掘导致更加精确的控制物理世界的物质和能量,以及由大数据挖掘带来的精神和文化方面的崭新现象。

相关文章

为什么社交网络中数据翻页技术复杂-技术方案...
views 1169
最近讨论的一个传统的问题,问题本身比较简单,针对key-list类型的数据,如何优化方案做到性能与成本的tradeoff。Key-list 在社交产品及面向用户的产品中非常普遍,如一个用户的好友关系 {“uid”:{1,2,3,4,5}},表示某个uid有1,2,3,4,5好友;一条微博下面的评论i...
大数据时代,科技走到了宗教尽头
views 1652
这是一个人人都言“大数据”的时代,然“大数据”存在于何处?影响于何处?难免,普通大众被席卷而来的“大数据”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“大数据”的局限性。 渗透时刻,无处不在的大数据 大数据可能是时下最吸引眼球的话题之一。从通过...
大数据思维下的新闻编辑学
views 1109
   大数据时代带来的思维变革,在数据视觉化、关联性思维和预测性思维等方面对传统的编辑思维发生着影响。在大数据与媒介融合背景下推进编辑课程改革,需要延长传统的“新闻编辑链”,实现新闻业务之间完全融合;引入“云报纸”等云技术新闻产品,刷新编辑学的研究客体;实现新闻编辑与史论的融合;实现从重方法到重创意...
戴尔与贵阳市政府开展大数据及云计算领域合作...
views 1264
北京,2015年1月20日——戴尔今天宣布,与贵阳市政府签署合作备忘录,双方将在大数据、云计算等领域展开一系列合作,通过共建云联合实验室、搭建混合企业云平台以及开展相关大数据人才培训等方式,建立广泛而深入的合作伙伴关系。在贵阳市政府的大力支持下,戴尔将进一步拓展在中国企业级市场的覆盖,助力中国地方经...
云计算背景下的大数据时代来临
views 1463
数据中心正在成为新时代的“信息电厂”,成为知识经济的基础设施。过去一年,“大数据”正在成为一个热门话题。 半个世纪信息技术的发展,主要解决的是云计算中“结构性”数据的存储、处理与应用。“结构性”数据的特征有如你到银行去存取款,银行的计算机系统记录着你的名字,在名字之后是你存取款的数量、时间、类型等信...
大数据基础知识:分布式计算、服务器集群-...
views 1290
大数据的数据量是非常大的,都是达到了PB的级别。在这么大的数据当中,包括了结构化数据和非结构化数据。其中结构化数据包括了数字、符号等数据,非结构化数据包括了文本、图像、声音、视频等数据。这让大数据在存储和处理的过程当中就不能用传统的数据库关系去完成了。在大数据里面,最有价值的信息就在这里面,所以这个...
数据可视化、信息可视化、知识可视化-技术方案...
views 1964
 概述   数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又...
开源云平台 CloudStack 4.1.0 安装详解 – 5、基本资源域...
views 1981
CloudStack拥有强大的硬件管理能力,可以把企业的内部硬件资源统一管理起来,虚拟化为一个硬件资源池,实现按需分配。 CloudStack对硬件资源的管理功能全部放在“基础架构”菜单下。 登录后,选择左侧导航上的“基础架构”–>区域–>添加区域。 区域是CloudStack中最大的范...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 大数据挖掘带动的变迁

大数据挖掘带动的变迁:等您坐沙发呢!

发表评论


读者排行