大数据时代,科技走到了宗教尽头

时间:14-12-17 栏目:大数据 作者:爱说云网 评论:0 点击: 1,876 次

这是一个人人都言“大数据”的时代,然“大数据”存在于何处?影响于何处?难免,普通大众被席卷而来的“大数据”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“大数据”的局限性。

渗透时刻,无处不在的大数据

大数据可能是时下最吸引眼球的话题之一。从通过鲜花与安全套销量比分析不同城市的浪漫指数到发现深处内陆的新疆人民反而比基尼销量第一,从为节能减排做贡献到德国国家队利用大数据技术搜集球员信息征战世界杯到根据敌方机场起降信号,一分钟内分析出起降批次,战斗机型号等细节,再到获得获第86届奥斯卡金像奖最佳原创剧本奖的《她》,剧本内主角和人工智能系统之间感情逐渐加深直到爱上彼此,大数据给人带来无尽遐想,带来无限精彩的可能。

就像马云所说的那样,人类已经从IT时代走向DT时代。阿里巴巴集团数据委员会长车品觉在他的著作《决战大数据》里面也强调了两个重要观点:其一,大数据彻底消除了“样本偏差”(sample bias)。“样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得”;其二,大数据时代的相关性分析可以创造以前无法想象的场景。极端情况下,线上数据的积累,可以形成个人的”线上人格”,影响乃至控制人的线下行为。

傲慢是罪,保持一颗敬畏之心

大数据前景如此美好,竟让我无言以对。然而,傲慢是罪。“智慧果”让人类拥有了智慧,但同时也让离开伊甸园的人类从此无法摆脱傲慢的原罪。从“通天塔”到在“地上建立天国”,失去敬畏之心的人类往往给自己造成巨大伤害。大数据时代,同样应该保持一颗敬畏之心,认识到以下三点。

一、样本偏差始终存在,大数据没有超越统计学

什么是样本偏差?这方面最精彩的例子来自二战。其简化版本是,英国皇家空军苦恼于德军凶猛的防空炮火,想通过加强飞机装甲降低战斗机损耗率。但受制于飞机载重,只能在部分部位加强装甲。为此,他们求助于一位统计学家。在仔细观察成功返回机场飞机上的着弹痕迹后,专家给出了出人意料的结论:在没有着弹痕迹的部位加装装甲。面对质疑,统计学家只回答了一句话。“那些部位着弹的飞机都坠落了”。可见,统计学永远是个手艺活,没有两把刷子是要害死人的。

本质上来说,统计学就是用部分推测整体,用过去预测未来的理论体系。其最大的弱点在于部分推测整体时,样本偏差会让结论失效。那么,在大数据时代,是否真的来到了天堂,没有样本偏差的困扰了?答案显然是否定的。从现象上来看,即使在大数据时代,数据与应用场景也会有严重割裂。拿情人节鲜花和安全套比率这个例子来说,基于“你懂得”的原因,很多安全套消费发生在线下,线上无法获取该数据。因为技术手段或商业模式本身的限制,线上系统能采集到的数据只是完整场景中的一部分,不是全部数据。再比如新疆人民比基尼销量第一的例子。数据分析人员如果不能意识到真实场景中,新疆的比基尼销售量主要集中线上(线下传统渠道销量很少或者基本没有?)但其它省份比基尼销售主要在线下(线上销量占比8%~10%)就会得出错误的结论。同时,在新疆,淘宝天猫的网上销量基本代表了真实的网上销量。但在北上广这些一线城市,京东的线上销量已经和淘宝天猫相当,只考虑阿里系的数据,会严重低估真实销量。

从理论上分析,数据与应用场景的割裂本质上就是样本偏差。因为技术或者利益的原因,大数据时代搜集的数据也不能完全覆盖应用场景的各个环节,所取得的数据仍然是部分,不是全部。最后,从哲学层面来说,即使以后技术有了长足的进步,解决数据与场景的割裂问题,同时也有了完美的商业模式可以让竞争对手乐意互相分享数据,样本偏差仍然会存在。其核心在于,人类虽然有能力认识客观世界的所有规律,但客观世界本身并不是静止的,而是在不断运动当中。过去的数据,一定不能体现客观世界未来的发展规律。“刻舟求剑”的理念不符合实际。从这个角度上来说,“黑天鹅”事件的本质就是样本偏差。技术再先进,商业模式再精妙,也不能解决这个问题。所以说,即使在大数据时代,人们还是应该有敬畏之心,在这个时代,科技确实游走到了宗教边缘。

二、大数据结论是统计学意义上的整体性结论,并不是针对个体

任何基于统计学的理论分析和结论都是整体性的。阿西莫夫在他的著作《基地》里完美的阐述了这一观点。哈利.谢顿以银河系里2000万星球上百亿亿居民为研究对象,成功创建了心理历史学,并以此成功预测了银河帝国会经历长达三万年的黑暗野蛮时期和银河第二帝国的出现。但无法用该理论预测个体。所以它无法预言变异人骡的出现。若非第二基地的存在,整个复兴计划险些失控。《失控》也描述了类似的现象。深海里的鱼群作为一个整体,行为规律非常容易预测。但单个个体行为毫无规律,难以预测。淘宝/天猫的“千人千面”是大数据时代的重要尝试。其核心基于大数据,为淘宝/天猫客户展现个性化搜索结果。该项目核心细节并不为外人所知,但基于理论分析,可以做出合理的推测。首先,淘宝/天猫搜集的数据一定不是所谓的“全量数据”,现有条件下,很多与顾客购买兴趣相关的核心数据无法被搜集。其次,即使模型准确率能达到99%,对于一个上亿规模的平台来说,也有近千万的客户会有比较差的用户体验。基于此,“千人千面”个性化程度必须做合理化约束,否则,理想越美好,现实就会越骨感。

三、相关性始终不是因果,这方面应用陷阱和机会一样多

相关性分析是数据分析利器,同时又是最容易引入问题的地方。相关并不是因果。统计数据显示,冰淇淋销量上升时,水中溺死人数会迅速上升,两者之间呈现极强的正相关。那么冰淇淋消费会引起人溺死吗?答案显然是否定的。只是天气炎热会同时增加冰淇淋消费和人们水上活动的几率。一个更有说服力的例子是某个时期的统计数据显示,白酒价格和牧师收入之间有极强的正相关。难道牧师群体们一个个都是“酒肉穿肠过,佛祖心中留”?答案也是否定的,其真实原因只是因为通货膨胀同时导致了白酒价格和牧师收入水平上涨。在大数据时代,相关与因果的混淆可能导致的问题会远超以往。大数据时代,数据极为充分,计算能力极强,可以发现以往无法发现的相关性。这是大数据时代让人兴奋的地方。但同时,相关性与因果性的辨别难度极大提升。一旦判断失误,会引起极大的问题。譬如说,目前阿里小贷引以为豪的信用判别模型与自动放款。假设目前信用模型相关性失效,“即通货膨胀率长期稳定,白酒价格和牧师收入不再强相关”,那通过现有模型筛选的主体的真实信用等级会有极大风险,后果不堪设想。以上分析纯粹基于理论层面,并不指向某个具体项目,但随着大数据技术的进步,辨别相关性与因果性的难度会越来越大,风险也会越来越高。

这个世界最让人理解的就是它是不可理解的。这个世界最让人难以理解的就是它又是可以理解的。大数据时代,我们需要有一颗敬畏之心。傲慢是罪。

相关文章

大数据与网络黑产
views 2845
随着互联网不断深度介入人们的生活,网络上也在源源不断积累起大量数据。这些数据就像散落在互联网生态中的粒粒珍珠,诱惑着网络黑产分子瞪大贪婪的双眼,伺机而动…… 记者调查发现,基于这些存在的产业链,上游,是以技术含量最高的职业黑客为主,他们通过挖掘漏洞、编写木马实施入侵,获取数据;中游,是购买这些数据...
列举不适合大数据处理的10件事情-
views 2088
许多企业领导人开始接纳大数据处理并期待神奇和奇迹,但却发现大数据带来新的复杂性——且从中获益所需要付出的努力要预计中的多得多。   每个组织机构都对大数据应用寄予厚望,期待它可以解答长期存在的业务问题,让他们在市场集中镇南关,在产品、服务交付中更具竞争力。这种对于大数据获益的预期很难实现,除非给...
运营商如何玩转大数据
views 1553
  如果说大数据在之前仅仅是人们口头上热炒的一个词的话,今年春节时央视《晚间新闻》启用百度地图定位可视化大数据播报的春节人口迁徙新闻,随后“百度迁徙”的上线通过春运线路、热门迁移城市等海量数据在线服务为“大数据”上演的一幕幕生动情景剧,则形象地说明了大数据走入各行各业的现实。   在盘活大数据价值...
大数据的价值
views 1568
  当我们关注那些在服务客户、增加业务机会方面具有巨大现有潜力的领域时,我认为,只有有意识地努力面向未来,并努力把重点放在那些有可能在未来几年走强的领域,我们才能够脱颖而出。大数据管理正是这样一个蕴藏着大量客户意向的领域,而支持这些意向的是客户投入真金白银的意愿。当今这个数字世界正产生着惊人的数据量...
云计算功能
views 1548
随着技术的进步,人类需要处理的数据业务也越来越多。无可争议的一件事是云计算功能是强大的,它可以有效地降低计算机硬件的投资,并降低信息服务的复杂性,节约人力物力。当云计算功能得到更好的发挥时,相信会有更多企业加入进来,使用云计算功能也将越来越方便。( 云计算的功能好处可以从以下几个方面看到。比如当用...
《机器学习实战》作者Peter Harrington:如何成为一位数据科学家-技术方案...
views 2009
 现如今,人们的生活无外乎就是这个样子的,早上被闹钟准时叫醒,醒来后喝杯现泡的咖啡、吃上一片现烤的面包片,然后乘坐交通工具去上班。通常在上班的路上还要堵车一小会儿。   虽然生活的每一天都在重复,但却总不是一成不变的。随着物联网技术的不断成熟,越来越多的无生命物体开始变得更加智能。它们通过传感器、...
美国大数据工程师面试攻略有哪些?
views 2935
大家好,我是来自硅谷的董飞,应国内朋友邀请,很高兴跟大家交流一下美国大数据工程师的面试攻略。 个人介绍 先做一个自我介绍,本科南开后,加入了一个创业公司kuxun,做实时信息检索,后来进入百度基础架构组,搭建了Baidu App Engine的早期版本,随后去Duke大学留...
Monet DB学习笔记
views 2783
1 架构: 三层软件架构: SQL front-end:前端SQL解析,数据模型优化,降低数据中间结果的总量,最后将SQL语句解析为MAL(MonetDB Assembly Language)。 Tactical-optimizers:一系列优化模块的集合,组成优化管道,这个模块提供功能从符号处理到...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 大数据时代,科技走到了宗教尽头

大数据时代,科技走到了宗教尽头:等您坐沙发呢!

发表评论


读者排行