大数据时代,科技走到了宗教尽头

时间:14-12-17 栏目:大数据 作者:爱说云网 评论:0 点击: 1,809 次

这是一个人人都言“大数据”的时代,然“大数据”存在于何处?影响于何处?难免,普通大众被席卷而来的“大数据”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“大数据”的局限性。

渗透时刻,无处不在的大数据

大数据可能是时下最吸引眼球的话题之一。从通过鲜花与安全套销量比分析不同城市的浪漫指数到发现深处内陆的新疆人民反而比基尼销量第一,从为节能减排做贡献到德国国家队利用大数据技术搜集球员信息征战世界杯到根据敌方机场起降信号,一分钟内分析出起降批次,战斗机型号等细节,再到获得获第86届奥斯卡金像奖最佳原创剧本奖的《她》,剧本内主角和人工智能系统之间感情逐渐加深直到爱上彼此,大数据给人带来无尽遐想,带来无限精彩的可能。

就像马云所说的那样,人类已经从IT时代走向DT时代。阿里巴巴集团数据委员会长车品觉在他的著作《决战大数据》里面也强调了两个重要观点:其一,大数据彻底消除了“样本偏差”(sample bias)。“样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得”;其二,大数据时代的相关性分析可以创造以前无法想象的场景。极端情况下,线上数据的积累,可以形成个人的”线上人格”,影响乃至控制人的线下行为。

傲慢是罪,保持一颗敬畏之心

大数据前景如此美好,竟让我无言以对。然而,傲慢是罪。“智慧果”让人类拥有了智慧,但同时也让离开伊甸园的人类从此无法摆脱傲慢的原罪。从“通天塔”到在“地上建立天国”,失去敬畏之心的人类往往给自己造成巨大伤害。大数据时代,同样应该保持一颗敬畏之心,认识到以下三点。

一、样本偏差始终存在,大数据没有超越统计学

什么是样本偏差?这方面最精彩的例子来自二战。其简化版本是,英国皇家空军苦恼于德军凶猛的防空炮火,想通过加强飞机装甲降低战斗机损耗率。但受制于飞机载重,只能在部分部位加强装甲。为此,他们求助于一位统计学家。在仔细观察成功返回机场飞机上的着弹痕迹后,专家给出了出人意料的结论:在没有着弹痕迹的部位加装装甲。面对质疑,统计学家只回答了一句话。“那些部位着弹的飞机都坠落了”。可见,统计学永远是个手艺活,没有两把刷子是要害死人的。

本质上来说,统计学就是用部分推测整体,用过去预测未来的理论体系。其最大的弱点在于部分推测整体时,样本偏差会让结论失效。那么,在大数据时代,是否真的来到了天堂,没有样本偏差的困扰了?答案显然是否定的。从现象上来看,即使在大数据时代,数据与应用场景也会有严重割裂。拿情人节鲜花和安全套比率这个例子来说,基于“你懂得”的原因,很多安全套消费发生在线下,线上无法获取该数据。因为技术手段或商业模式本身的限制,线上系统能采集到的数据只是完整场景中的一部分,不是全部数据。再比如新疆人民比基尼销量第一的例子。数据分析人员如果不能意识到真实场景中,新疆的比基尼销售量主要集中线上(线下传统渠道销量很少或者基本没有?)但其它省份比基尼销售主要在线下(线上销量占比8%~10%)就会得出错误的结论。同时,在新疆,淘宝天猫的网上销量基本代表了真实的网上销量。但在北上广这些一线城市,京东的线上销量已经和淘宝天猫相当,只考虑阿里系的数据,会严重低估真实销量。

从理论上分析,数据与应用场景的割裂本质上就是样本偏差。因为技术或者利益的原因,大数据时代搜集的数据也不能完全覆盖应用场景的各个环节,所取得的数据仍然是部分,不是全部。最后,从哲学层面来说,即使以后技术有了长足的进步,解决数据与场景的割裂问题,同时也有了完美的商业模式可以让竞争对手乐意互相分享数据,样本偏差仍然会存在。其核心在于,人类虽然有能力认识客观世界的所有规律,但客观世界本身并不是静止的,而是在不断运动当中。过去的数据,一定不能体现客观世界未来的发展规律。“刻舟求剑”的理念不符合实际。从这个角度上来说,“黑天鹅”事件的本质就是样本偏差。技术再先进,商业模式再精妙,也不能解决这个问题。所以说,即使在大数据时代,人们还是应该有敬畏之心,在这个时代,科技确实游走到了宗教边缘。

二、大数据结论是统计学意义上的整体性结论,并不是针对个体

任何基于统计学的理论分析和结论都是整体性的。阿西莫夫在他的著作《基地》里完美的阐述了这一观点。哈利.谢顿以银河系里2000万星球上百亿亿居民为研究对象,成功创建了心理历史学,并以此成功预测了银河帝国会经历长达三万年的黑暗野蛮时期和银河第二帝国的出现。但无法用该理论预测个体。所以它无法预言变异人骡的出现。若非第二基地的存在,整个复兴计划险些失控。《失控》也描述了类似的现象。深海里的鱼群作为一个整体,行为规律非常容易预测。但单个个体行为毫无规律,难以预测。淘宝/天猫的“千人千面”是大数据时代的重要尝试。其核心基于大数据,为淘宝/天猫客户展现个性化搜索结果。该项目核心细节并不为外人所知,但基于理论分析,可以做出合理的推测。首先,淘宝/天猫搜集的数据一定不是所谓的“全量数据”,现有条件下,很多与顾客购买兴趣相关的核心数据无法被搜集。其次,即使模型准确率能达到99%,对于一个上亿规模的平台来说,也有近千万的客户会有比较差的用户体验。基于此,“千人千面”个性化程度必须做合理化约束,否则,理想越美好,现实就会越骨感。

三、相关性始终不是因果,这方面应用陷阱和机会一样多

相关性分析是数据分析利器,同时又是最容易引入问题的地方。相关并不是因果。统计数据显示,冰淇淋销量上升时,水中溺死人数会迅速上升,两者之间呈现极强的正相关。那么冰淇淋消费会引起人溺死吗?答案显然是否定的。只是天气炎热会同时增加冰淇淋消费和人们水上活动的几率。一个更有说服力的例子是某个时期的统计数据显示,白酒价格和牧师收入之间有极强的正相关。难道牧师群体们一个个都是“酒肉穿肠过,佛祖心中留”?答案也是否定的,其真实原因只是因为通货膨胀同时导致了白酒价格和牧师收入水平上涨。在大数据时代,相关与因果的混淆可能导致的问题会远超以往。大数据时代,数据极为充分,计算能力极强,可以发现以往无法发现的相关性。这是大数据时代让人兴奋的地方。但同时,相关性与因果性的辨别难度极大提升。一旦判断失误,会引起极大的问题。譬如说,目前阿里小贷引以为豪的信用判别模型与自动放款。假设目前信用模型相关性失效,“即通货膨胀率长期稳定,白酒价格和牧师收入不再强相关”,那通过现有模型筛选的主体的真实信用等级会有极大风险,后果不堪设想。以上分析纯粹基于理论层面,并不指向某个具体项目,但随着大数据技术的进步,辨别相关性与因果性的难度会越来越大,风险也会越来越高。

这个世界最让人理解的就是它是不可理解的。这个世界最让人难以理解的就是它又是可以理解的。大数据时代,我们需要有一颗敬畏之心。傲慢是罪。

相关文章

为什么社交网络中数据翻页技术复杂-技术方案...
views 1301
最近讨论的一个传统的问题,问题本身比较简单,针对key-list类型的数据,如何优化方案做到性能与成本的tradeoff。Key-list 在社交产品及面向用户的产品中非常普遍,如一个用户的好友关系 {“uid”:{1,2,3,4,5}},表示某个uid有1,2,3,4,5好友;一条微博下面的评论i...
大数据分析处理平台的调度应该具备什么能力?...
views 1557
本文想讨论下大数据分析处理平台的调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。 谈调度之前,先说说大数据分析处理平台的定义:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、可视呈...
详解大数据的思想形成与价值维度
views 1326
  比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利...
助力新互联时代云转型 ThinkServer堪当重任...
views 1753
当今我们正处于一个全新的互联时代,随着云计算、大数据、社交媒体、移动互联等大趋势的影响,传统IT架构正面向新的IT架构转型。移动平台开始打破私人界限,将碎片化时间融入高效办公体系,这些不同的设备,随时随地制造若干的信息,企业数据和个人数据都呈翻倍趋势增长,不断变化的业务模式迫使企业面临新互联时代的转...
云计算“三国时代”:百度有开发者,阿里靠中间人,腾讯要突围...
views 1697
云计算“三国时代”:百度有开发者,阿里靠中间人,腾讯要突围   自从2013年9月腾讯云推出之后,中国云计算市场正式进入三国时代。尽管微软、亚马逊云服务均已入华,中国三大运营商也有云计算产品,京东、新浪等“小巨头”也有云计算产品,但相比三大互联网巨头而言,它们并没有多少存在感。云计算不...
BDTC 2014讲义尝鲜:15家机构论道大数据实战...
views 1750
2014中国大数据技术大会已圆满落幕,这里为大家送上本届大会的第一手干货,分别来自Hortonworks、IBM、Intel、VMware、eBay、阿里、腾讯、网易、搜狐、携程等机构。 2014年12月12-14日,作为大数据领域最具影响、规模最大的IT盛会——2014中国大数据技术大会暨第二届C...
GFS(Google File System)介绍 — 大数据云计算时代...
views 1843
Google文件系统(Google File System,GFS)是一个大型的分布式文件系统。它为Google云计算提供海量存储,并且与Chubby、MapReduce以及Bigtable 等技术结合十分紧密,处于所有核心技术的底层。由于GFS并不是一个开源的系统,我们仅仅能从Google公布的技...
用友软件:互联网金融服务商雏形渐显...
views 1185
 用友软件互联网金融业务布局不断落地,互联网金融服务商雏形渐显。   事件评论   “用友版”互联网金融定位中小企业金融服务,将充分挖掘公司现有近200万小微企业客户的价值,市场空间非常广阔。和银行及BAT等互联网巨头进行金融服务不同,用友最核心的财富在于拥有近200万的小微企业客户,因此,定位于中...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 大数据时代,科技走到了宗教尽头

大数据时代,科技走到了宗教尽头:等您坐沙发呢!

发表评论


读者排行