大数据时代,科技走到了宗教尽头

时间:14-12-17 栏目:大数据 作者:爱说云网 评论:0 点击: 1,787 次

这是一个人人都言“大数据”的时代,然“大数据”存在于何处?影响于何处?难免,普通大众被席卷而来的“大数据”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“大数据”的局限性。

渗透时刻,无处不在的大数据

大数据可能是时下最吸引眼球的话题之一。从通过鲜花与安全套销量比分析不同城市的浪漫指数到发现深处内陆的新疆人民反而比基尼销量第一,从为节能减排做贡献到德国国家队利用大数据技术搜集球员信息征战世界杯到根据敌方机场起降信号,一分钟内分析出起降批次,战斗机型号等细节,再到获得获第86届奥斯卡金像奖最佳原创剧本奖的《她》,剧本内主角和人工智能系统之间感情逐渐加深直到爱上彼此,大数据给人带来无尽遐想,带来无限精彩的可能。

就像马云所说的那样,人类已经从IT时代走向DT时代。阿里巴巴集团数据委员会长车品觉在他的著作《决战大数据》里面也强调了两个重要观点:其一,大数据彻底消除了“样本偏差”(sample bias)。“样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得”;其二,大数据时代的相关性分析可以创造以前无法想象的场景。极端情况下,线上数据的积累,可以形成个人的”线上人格”,影响乃至控制人的线下行为。

傲慢是罪,保持一颗敬畏之心

大数据前景如此美好,竟让我无言以对。然而,傲慢是罪。“智慧果”让人类拥有了智慧,但同时也让离开伊甸园的人类从此无法摆脱傲慢的原罪。从“通天塔”到在“地上建立天国”,失去敬畏之心的人类往往给自己造成巨大伤害。大数据时代,同样应该保持一颗敬畏之心,认识到以下三点。

一、样本偏差始终存在,大数据没有超越统计学

什么是样本偏差?这方面最精彩的例子来自二战。其简化版本是,英国皇家空军苦恼于德军凶猛的防空炮火,想通过加强飞机装甲降低战斗机损耗率。但受制于飞机载重,只能在部分部位加强装甲。为此,他们求助于一位统计学家。在仔细观察成功返回机场飞机上的着弹痕迹后,专家给出了出人意料的结论:在没有着弹痕迹的部位加装装甲。面对质疑,统计学家只回答了一句话。“那些部位着弹的飞机都坠落了”。可见,统计学永远是个手艺活,没有两把刷子是要害死人的。

本质上来说,统计学就是用部分推测整体,用过去预测未来的理论体系。其最大的弱点在于部分推测整体时,样本偏差会让结论失效。那么,在大数据时代,是否真的来到了天堂,没有样本偏差的困扰了?答案显然是否定的。从现象上来看,即使在大数据时代,数据与应用场景也会有严重割裂。拿情人节鲜花和安全套比率这个例子来说,基于“你懂得”的原因,很多安全套消费发生在线下,线上无法获取该数据。因为技术手段或商业模式本身的限制,线上系统能采集到的数据只是完整场景中的一部分,不是全部数据。再比如新疆人民比基尼销量第一的例子。数据分析人员如果不能意识到真实场景中,新疆的比基尼销售量主要集中线上(线下传统渠道销量很少或者基本没有?)但其它省份比基尼销售主要在线下(线上销量占比8%~10%)就会得出错误的结论。同时,在新疆,淘宝天猫的网上销量基本代表了真实的网上销量。但在北上广这些一线城市,京东的线上销量已经和淘宝天猫相当,只考虑阿里系的数据,会严重低估真实销量。

从理论上分析,数据与应用场景的割裂本质上就是样本偏差。因为技术或者利益的原因,大数据时代搜集的数据也不能完全覆盖应用场景的各个环节,所取得的数据仍然是部分,不是全部。最后,从哲学层面来说,即使以后技术有了长足的进步,解决数据与场景的割裂问题,同时也有了完美的商业模式可以让竞争对手乐意互相分享数据,样本偏差仍然会存在。其核心在于,人类虽然有能力认识客观世界的所有规律,但客观世界本身并不是静止的,而是在不断运动当中。过去的数据,一定不能体现客观世界未来的发展规律。“刻舟求剑”的理念不符合实际。从这个角度上来说,“黑天鹅”事件的本质就是样本偏差。技术再先进,商业模式再精妙,也不能解决这个问题。所以说,即使在大数据时代,人们还是应该有敬畏之心,在这个时代,科技确实游走到了宗教边缘。

二、大数据结论是统计学意义上的整体性结论,并不是针对个体

任何基于统计学的理论分析和结论都是整体性的。阿西莫夫在他的著作《基地》里完美的阐述了这一观点。哈利.谢顿以银河系里2000万星球上百亿亿居民为研究对象,成功创建了心理历史学,并以此成功预测了银河帝国会经历长达三万年的黑暗野蛮时期和银河第二帝国的出现。但无法用该理论预测个体。所以它无法预言变异人骡的出现。若非第二基地的存在,整个复兴计划险些失控。《失控》也描述了类似的现象。深海里的鱼群作为一个整体,行为规律非常容易预测。但单个个体行为毫无规律,难以预测。淘宝/天猫的“千人千面”是大数据时代的重要尝试。其核心基于大数据,为淘宝/天猫客户展现个性化搜索结果。该项目核心细节并不为外人所知,但基于理论分析,可以做出合理的推测。首先,淘宝/天猫搜集的数据一定不是所谓的“全量数据”,现有条件下,很多与顾客购买兴趣相关的核心数据无法被搜集。其次,即使模型准确率能达到99%,对于一个上亿规模的平台来说,也有近千万的客户会有比较差的用户体验。基于此,“千人千面”个性化程度必须做合理化约束,否则,理想越美好,现实就会越骨感。

三、相关性始终不是因果,这方面应用陷阱和机会一样多

相关性分析是数据分析利器,同时又是最容易引入问题的地方。相关并不是因果。统计数据显示,冰淇淋销量上升时,水中溺死人数会迅速上升,两者之间呈现极强的正相关。那么冰淇淋消费会引起人溺死吗?答案显然是否定的。只是天气炎热会同时增加冰淇淋消费和人们水上活动的几率。一个更有说服力的例子是某个时期的统计数据显示,白酒价格和牧师收入之间有极强的正相关。难道牧师群体们一个个都是“酒肉穿肠过,佛祖心中留”?答案也是否定的,其真实原因只是因为通货膨胀同时导致了白酒价格和牧师收入水平上涨。在大数据时代,相关与因果的混淆可能导致的问题会远超以往。大数据时代,数据极为充分,计算能力极强,可以发现以往无法发现的相关性。这是大数据时代让人兴奋的地方。但同时,相关性与因果性的辨别难度极大提升。一旦判断失误,会引起极大的问题。譬如说,目前阿里小贷引以为豪的信用判别模型与自动放款。假设目前信用模型相关性失效,“即通货膨胀率长期稳定,白酒价格和牧师收入不再强相关”,那通过现有模型筛选的主体的真实信用等级会有极大风险,后果不堪设想。以上分析纯粹基于理论层面,并不指向某个具体项目,但随着大数据技术的进步,辨别相关性与因果性的难度会越来越大,风险也会越来越高。

这个世界最让人理解的就是它是不可理解的。这个世界最让人难以理解的就是它又是可以理解的。大数据时代,我们需要有一颗敬畏之心。傲慢是罪。

相关文章

云安全技术
views 2716
“云安全(Cloud Security)”计划是网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到...
mongodb备份与恢复方法大全
views 3781
一. 备份单台mongodb 1. 文件快照方式 2. 复制数据文件方式 3. 使用mongodump方式 二. 备份复制集 1. 将复制集中要恢复的成员移除集群 2. 运行mongorestore --oplogReplay命令 3. 创建oplog 4. 恢复oplog ...
云计算和大数据是一对孪生技术
views 1497
12月26日讯 26日下午2014全国智能物流云峰会暨湖南海驿智能物流园招商启动仪式12月26日在长沙举行。会上中科院云计算中心岳强博士以《物流云时代的变革》为题,做主题演讲,他表示,云计算和大数据是一对孪生技术,云计算中心是大数据的存储和处理基地 .   大家下午好!首先我把中科院研究中心的情况给...
移动互联时代CFO变身记
views 1813
美国零售巨头Target在邮件中向一位中学女生推荐孕婴用品及其优惠券,被其父亲强烈质疑与抗议,在获得道歉后,父亲却发现女儿真的怀孕了。Target这个广为流传的故事,被认为是其在大数据营销等方面精密的探索。 不过在客户身上搜集信息用于营销决策,也可能存在数据安全的风险。2014年1月,Target公...
大数据未来发展趋势预测
views 2500
大数据的世界正在稳步发展壮大。随着数据数量和种类的不断膨胀,读者都想知道接下来会发生什么。Sriram Mohan博士是罗斯豪曼理工学院计算机科学和软件工程的副教授。同时他还兼任着Avalon咨询公司大数据解决方案高级顾问一职。他融汇理论与实践于一身,他绝对是回答“2014年企业大数据发展趋势”的正...
大数据时代,课堂应如何创新
views 1709
随着大数据时代出现,有人曾这样预言,随着MOOC、微课、翻转课堂等基于网络的教学形式的出现,我们这些中小学教师弄不好是会下岗的。 这也许不是危言耸听。 当我们孩子天天拿着IPAD,随时随地搜索、了解各种知识、资讯时,他们是这个互联网时代的原住民,而我们从“50后”到“80后”的教师,充其量只是网络世...
试读《大数据时代的IT架构设计》
views 1382
大数据”的概念是在最早经历信息爆炸的学科--天文学和基因学中提出来的,而今已经渗透到了各行各业和生活中的方方面面。牛津大学教授维克托曾在《大数据时代》一书中指出,通过对海量数据进行分析,能够获得有巨大价值的产品和服务,或深刻的洞见。大数据引起了商业变革,管理变革,以致思维变革。调整信息系统的架构,使...
大数据如何解决城市计算的基本框架及核心问题...
views 1716
    编者按:近年来,随着感知技术和计算环境的成熟,各种大数据在城市中悄然而生。城市计算就是用城市中的大数据来解决城市本身所面临的挑战,通过对多种异构数 据的整合、分析和挖掘,来提取知识和智能,并用智能来创造“人—环境—城市”三赢的结果。微软亚洲研究院主管研究员郑宇从城市计算的基本框架及核心问题...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 大数据时代,科技走到了宗教尽头

大数据时代,科技走到了宗教尽头:等您坐沙发呢!

发表评论


读者排行