大数据时代,科技走到了宗教尽头

时间:14-12-17 栏目:大数据 作者:爱说云网 评论:0 点击: 2,078 次

这是一个人人都言“大数据”的时代,然“大数据”存在于何处?影响于何处?难免,普通大众被席卷而来的“大数据”之潮迷乱了眼睛,搅乱了思绪。正是在这样的时刻,笔者认为尤为重要的是保有敬畏之心与清醒的思维,认识到“大数据”的局限性。

渗透时刻,无处不在的大数据

大数据可能是时下最吸引眼球的话题之一。从通过鲜花与安全套销量比分析不同城市的浪漫指数到发现深处内陆的新疆人民反而比基尼销量第一,从为节能减排做贡献到德国国家队利用大数据技术搜集球员信息征战世界杯到根据敌方机场起降信号,一分钟内分析出起降批次,战斗机型号等细节,再到获得获第86届奥斯卡金像奖最佳原创剧本奖的《她》,剧本内主角和人工智能系统之间感情逐渐加深直到爱上彼此,大数据给人带来无尽遐想,带来无限精彩的可能。

就像马云所说的那样,人类已经从IT时代走向DT时代。阿里巴巴集团数据委员会长车品觉在他的著作《决战大数据》里面也强调了两个重要观点:其一,大数据彻底消除了“样本偏差”(sample bias)。“样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得”;其二,大数据时代的相关性分析可以创造以前无法想象的场景。极端情况下,线上数据的积累,可以形成个人的”线上人格”,影响乃至控制人的线下行为。

傲慢是罪,保持一颗敬畏之心

大数据前景如此美好,竟让我无言以对。然而,傲慢是罪。“智慧果”让人类拥有了智慧,但同时也让离开伊甸园的人类从此无法摆脱傲慢的原罪。从“通天塔”到在“地上建立天国”,失去敬畏之心的人类往往给自己造成巨大伤害。大数据时代,同样应该保持一颗敬畏之心,认识到以下三点。

一、样本偏差始终存在,大数据没有超越统计学

什么是样本偏差?这方面最精彩的例子来自二战。其简化版本是,英国皇家空军苦恼于德军凶猛的防空炮火,想通过加强飞机装甲降低战斗机损耗率。但受制于飞机载重,只能在部分部位加强装甲。为此,他们求助于一位统计学家。在仔细观察成功返回机场飞机上的着弹痕迹后,专家给出了出人意料的结论:在没有着弹痕迹的部位加装装甲。面对质疑,统计学家只回答了一句话。“那些部位着弹的飞机都坠落了”。可见,统计学永远是个手艺活,没有两把刷子是要害死人的。

本质上来说,统计学就是用部分推测整体,用过去预测未来的理论体系。其最大的弱点在于部分推测整体时,样本偏差会让结论失效。那么,在大数据时代,是否真的来到了天堂,没有样本偏差的困扰了?答案显然是否定的。从现象上来看,即使在大数据时代,数据与应用场景也会有严重割裂。拿情人节鲜花和安全套比率这个例子来说,基于“你懂得”的原因,很多安全套消费发生在线下,线上无法获取该数据。因为技术手段或商业模式本身的限制,线上系统能采集到的数据只是完整场景中的一部分,不是全部数据。再比如新疆人民比基尼销量第一的例子。数据分析人员如果不能意识到真实场景中,新疆的比基尼销售量主要集中线上(线下传统渠道销量很少或者基本没有?)但其它省份比基尼销售主要在线下(线上销量占比8%~10%)就会得出错误的结论。同时,在新疆,淘宝天猫的网上销量基本代表了真实的网上销量。但在北上广这些一线城市,京东的线上销量已经和淘宝天猫相当,只考虑阿里系的数据,会严重低估真实销量。

从理论上分析,数据与应用场景的割裂本质上就是样本偏差。因为技术或者利益的原因,大数据时代搜集的数据也不能完全覆盖应用场景的各个环节,所取得的数据仍然是部分,不是全部。最后,从哲学层面来说,即使以后技术有了长足的进步,解决数据与场景的割裂问题,同时也有了完美的商业模式可以让竞争对手乐意互相分享数据,样本偏差仍然会存在。其核心在于,人类虽然有能力认识客观世界的所有规律,但客观世界本身并不是静止的,而是在不断运动当中。过去的数据,一定不能体现客观世界未来的发展规律。“刻舟求剑”的理念不符合实际。从这个角度上来说,“黑天鹅”事件的本质就是样本偏差。技术再先进,商业模式再精妙,也不能解决这个问题。所以说,即使在大数据时代,人们还是应该有敬畏之心,在这个时代,科技确实游走到了宗教边缘。

二、大数据结论是统计学意义上的整体性结论,并不是针对个体

任何基于统计学的理论分析和结论都是整体性的。阿西莫夫在他的著作《基地》里完美的阐述了这一观点。哈利.谢顿以银河系里2000万星球上百亿亿居民为研究对象,成功创建了心理历史学,并以此成功预测了银河帝国会经历长达三万年的黑暗野蛮时期和银河第二帝国的出现。但无法用该理论预测个体。所以它无法预言变异人骡的出现。若非第二基地的存在,整个复兴计划险些失控。《失控》也描述了类似的现象。深海里的鱼群作为一个整体,行为规律非常容易预测。但单个个体行为毫无规律,难以预测。淘宝/天猫的“千人千面”是大数据时代的重要尝试。其核心基于大数据,为淘宝/天猫客户展现个性化搜索结果。该项目核心细节并不为外人所知,但基于理论分析,可以做出合理的推测。首先,淘宝/天猫搜集的数据一定不是所谓的“全量数据”,现有条件下,很多与顾客购买兴趣相关的核心数据无法被搜集。其次,即使模型准确率能达到99%,对于一个上亿规模的平台来说,也有近千万的客户会有比较差的用户体验。基于此,“千人千面”个性化程度必须做合理化约束,否则,理想越美好,现实就会越骨感。

三、相关性始终不是因果,这方面应用陷阱和机会一样多

相关性分析是数据分析利器,同时又是最容易引入问题的地方。相关并不是因果。统计数据显示,冰淇淋销量上升时,水中溺死人数会迅速上升,两者之间呈现极强的正相关。那么冰淇淋消费会引起人溺死吗?答案显然是否定的。只是天气炎热会同时增加冰淇淋消费和人们水上活动的几率。一个更有说服力的例子是某个时期的统计数据显示,白酒价格和牧师收入之间有极强的正相关。难道牧师群体们一个个都是“酒肉穿肠过,佛祖心中留”?答案也是否定的,其真实原因只是因为通货膨胀同时导致了白酒价格和牧师收入水平上涨。在大数据时代,相关与因果的混淆可能导致的问题会远超以往。大数据时代,数据极为充分,计算能力极强,可以发现以往无法发现的相关性。这是大数据时代让人兴奋的地方。但同时,相关性与因果性的辨别难度极大提升。一旦判断失误,会引起极大的问题。譬如说,目前阿里小贷引以为豪的信用判别模型与自动放款。假设目前信用模型相关性失效,“即通货膨胀率长期稳定,白酒价格和牧师收入不再强相关”,那通过现有模型筛选的主体的真实信用等级会有极大风险,后果不堪设想。以上分析纯粹基于理论层面,并不指向某个具体项目,但随着大数据技术的进步,辨别相关性与因果性的难度会越来越大,风险也会越来越高。

这个世界最让人理解的就是它是不可理解的。这个世界最让人难以理解的就是它又是可以理解的。大数据时代,我们需要有一颗敬畏之心。傲慢是罪。

相关文章

专访携程大数据平台高级经理李亚锋:大数据技术融合下的Spark更具魅力...
views 1758
随着移动互联时代的到来,人们的双手得到解放,因为通过智能手机APP和触摸屏就可以彻底解决交互性和易用性的问题,这也使用户行为数据呈现爆炸性增长。大数据技术可以帮助我们对海量的数据进行加工分析,了解用户的行为特征,以及他们对服务的期待,从而使用户得到更好的服务体验。 Hadoop 和Spark都是大家...
mongodb备份与恢复方法大全
views 4394
一. 备份单台mongodb 1. 文件快照方式 2. 复制数据文件方式 3. 使用mongodump方式 二. 备份复制集 1. 将复制集中要恢复的成员移除集群 2. 运行mongorestore --oplogReplay命令 3. 创建oplog 4. 恢复oplog ...
阿里云与河北省共建智慧河北 打造统一数字化服务平台...
views 2268
6月27日上午,河北省人民政府与阿里巴巴集团达成战略合作。河北省将阿里云计算纳入政府集中采购目录。阿里云计算为河北省电子政务、城市管理及民生服务等领域提供统一的数字化服务平台,共同建设基于云计算、大数据与数字互联网的智慧河北。 便民服务方面,双方将结合河北省便民服务网,依托支付宝便民服务窗,推动河...
互联网思维下该如何研究用户,哪里寻求大数据资源?...
views 1711
互联网时代,都倡导以客户需求为导向设计产品,但到底该如何研究用户?哪里寻求到用户资源?大家都在说大数据营销,但该如何利用大数据?哪里寻求这些资源呢?        易卓数据问:现在互联网的时代,都倡导以客户需求为导向设计产品,但是我却不知道该如何研究用户,哪里寻求到我的用户资源,简单的做问卷调查...
10亿台移动设备的大数据表示移动互联网已是年轻人天下...
views 2370
昨天,国内独立第三方数据服务提供商TalkingData正式发布《2014移动互联网数据报告》。报告显示:2014年,我国移动智能终端用户规模达10.6亿,较2013年增长231.7%,增速远超全球同期市场。 TalkingData数据平台部总监陶京琪表示,报告数据都是基于TalkingData覆...
大数据拼精准 可否触动电商个性营销神经...
views 1522
今日之电商诸侯争霸,可谓火药味甚浓,更推进着产业前进步伐。古语有云:长袖善舞,多钱善贾,意指有所依靠,事情容易成功。随着大数据所爆发出的巨大潜力,在如今的互联网经济时代,玩电商的“有才有财”企业,正在用大数据思维与技术影响着企业业务决策和商业推广思路。可以预测的是,互联网平台大数据分析,正如利剑出鞘...
网易大数据平台的Spark技术实践-技术方案...
views 1560
网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销。 实时计算指针对只读(Read On...
大数据时代驾到:1万亿云计算蛋糕诱惑开始“接地气”...
views 2330
目前互联网应用更多的是消费者,未来将是工业互联网时代,规模要比现在大很多倍   6月5日至7日,第五届中国云计算大会在北京召开。阿里巴巴、百度、金山、IBM、新浪、雅虎等互联网公司技术负责人以及中国移动运营商悉数到场。   尽管北京接连几日大雨,但这并没有熄灭技术爱好者的热情,国家会议中心四楼600...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 大数据时代,科技走到了宗教尽头

大数据时代,科技走到了宗教尽头:等您坐沙发呢!

发表评论


读者排行