大数据时代的陷阱,你掉过几回

「There are three kinds of lies: lies, damn lies and statistics.」

.

大数据时代到来后,你会发现无数人(可能也包括你自己)都应时产生了一种“数据信仰”——信教者认为统计数据即为科学,大量数据背后暗藏了世间运行规律,漂亮流畅的数据表格PPT自带客观准确有深度的印戳。

.

虽然说对漂亮统计图表的盲信是普通人面对科学时不明觉厉的自然反应,可盲信恰好是科学精神的死敌。今天我们就来破除几个大数据时代的极度常见的盲信和陷阱。

.

你看到的数据可能被悄悄动了手脚

在所有造假行为中,数据造假可能是难度最低且最不易侦破的。

所有写过实验报告或学术论文的人都知道悄悄删掉几个不和谐的数据点是多么简单的事吧。每年新闻里都会有几起有名教授被爆论文造假事件;大学者如此,更别提造假压力没那么大的小研究员和受大企业赞助的研究项目了——当然,我并不是说所有论文都不靠谱,而是论文都有不靠谱的可能性,且非专业人士无法分辨这个可能性的大小。

对于普通受众来说,只要保持怀疑和独立思考,就已经具备绕开大多数据陷阱、在大数据时代生存下去的基本素养了。

.

数据没问题,可是产生数据的样本不靠谱

如果不是在闭门造车造假数据,那真实数据必然来自样本(sample)。除了极少见的情况下,有条件不加过滤地采集所有目标样本的数据(比如需要登门拜户的人口普查);绝大多数时候,统计数据来自抽样调查——即在目标样本中随机选取一定小样本。

有代表性的抽样调查(representative sampling)关键就在于随机二字。但是在现实条件下,做到随机非常非常困难。

一方面,外部干扰条件太多,要做到随机可能会是件相当劳民伤财的事。

比如,当进行人口抽查时,理应每个地方都有相同比例的居民会被抽样,但面对十个交通便捷人口众多的城镇和一个人口稀少坐落于几千米高原之上的小山村时,时间资金有限的调查员,真的能做到为了小山村个位数的居民样本而严格遵循随机原则吗?

这也是政治民意调查很少靠谱的原因。很多国家的媒体热衷于在新闻中展示近日民意调查结果,这类调查人数往往只有几百到数千,先不说如此小的样本是否真的具备数据意义,就算是只看媒体进行民意调查的方式,有一定概率常识的人也很难相信这种调查得出的结论——电视媒体进行民意调查的主要途径是家用座机。现在社会有多少人能通过座机联系到呢?这样的采样方式无疑与随机取样差了十万八千里。

.

第二,就算是非常简单的问卷调查,也总会有发出去收不回来的问卷。那一部分无回应的样本(non-response samples)却可能会完全改变调查的结论。

二战时,数据科学家 Abraham Wald 所在的研究组曾为英国海军的战机做过损失分析。当时从敌区飞回的飞机身上存在着这样分布的弹孔:

示意图来自 wikipedia

示意图来自 wikipedia

大家都认为应该加强弹孔密集的机翼、机尾区的材料强度,但 Wald 却提出,真正值得在意的是没留下什么弹孔的发动机和机身区域——因为被射中那儿的飞机当下就挂了,根本就没法飞回来供研究员检查!

这是一个非常生动的幸存者偏差真实例证,也证明了无回应样本可能带来巨大误导

这也是绝大多数人都会忽视的一项数据谬误。比如,我们总会把商品评论、网站电影评分当成有代表性的大众喜好,但实际上,对一部电影抱有越极端(超赞or烂到家了)看法的观众越可能有动力去网站评分、留影评,还有相当多的人不论好坏从不打分,也有少部分积极分子次次都要评分,而那些懒得去打分的观众就是无回应的样本——他们的真实看法可能会扭转现有的结论。

.

数据没问题,采样也没大问题,但数据本身无法推导出你以为的结论

「Numbers never lie, but liars use numbers.」

医药界的实验报告往往会在一堆图表后甩出“统计证明,某某新药可以降低3%患二型糖尿病的几率”的结论,媒体又会紧跟其后用充满冲击力的标题,将整篇论文化为一句不超10个字话传达给大众。不谈在传播的过程中可能产生的种种夸张失实,仅看医学论文本身,就足以体验到数据的陷阱。

手握数据的人总是告诉我们,降低了15%,增加了20%,普及率超过60%——可是有多少人知道这些百分数到底意味着什么?

.

比如,限枪在美国一直是个热议的话题,拥枪派喜欢强调的这么一个统计数据:在美国,任一年里,只有 0.2% 的私人武器用于暴力犯罪——听起来真的很少!

可是如果再查一下美国民间枪支估计数目:300000000(别数啦,是3亿),做个简单乘法,

300,000,000 * 0.002 = 600,000!

美国每年有60万私人枪支出现在暴力犯罪中——现在,还会觉得 0.2% 是个特别小的数字吗?

.

记住:当你不知道真实数据是什么时,百分数很难说明什么。

.

数据、采样、结论看起来都没问题,但实验不符合基本科学逻辑

近几百年的科学发展留给人类最宝贵的财富是什么?不是蒸汽机电力互联网,而是科学研究方法论,因为这是所有的发明创新的起点。科学方法论的基本套路是:

观察现象 -> 提出假设 -> 设计实验 - 进行实验 - 验证或反驳假设 - 得出结论

这套方法论很多人在中学生物课上就接触到了,但这看起来清晰简单的科学逻辑却并不易掌握——不少受过高等教育的人其实也不理解科学方法论。

.

1992年,几个瑞典科学家在一项长达25年的跟踪实验中得出这样的结论:住在高压电线附近会增加四倍儿童患白血病的概率。这几位科学家是如何得出这个结论的呢?来看一下他们的实验设计:

找到生活在距高压电线300米内的所有居民,在接下来25年的时间里跟踪调查这些人,在列举了800种疾病的表格里逐年记录下每类病患的人数。

最后,科学家发现,与全国平均水平相比,这些住在高压电线附近的人群在儿童白血病的患病率上高出平均水平四倍!因此这些研究人员向政府呼吁重视这项严峻的健康问题。

.

但是,他们的研究从一开始就犯了一个错,导致这个花费25年得出的结论毫无意义。

你能找到他们的错误吗?

如果你不能很快就发现错误的话,说明你其实并不理解科学方法论是怎么回事(很有可能也不太理解概率论)。

.

这项高压线影响健康的试验,犯了颠倒科学实验步骤的错误。

正确的科学实验步骤是先「提出假设」,再「设计、进行试验」,接着「验证或反驳假设」。而这项研究呢,却是跳过了「提出假设」的步骤,直接拿出一个包含了800项疾病的列表,企图在其中找到一项可能出现反常数据的选项。这就好比拿一大把飞镖随意扔向一面白墙,最后在飞镖位置最集中的几个地方自己画上靶——

然后向没看到全部过程的人宣称自己是神枪手 :P

这类根据结果反提假设的现象被称为 Texas Sharpshooter Fallacy 德州神枪手谬误

.

小结

人脑并非为理解数字啦统计啦这些东西而设计的,这点在旧博文《工程师的脑子和普通人不一样》中已有所阐述。

.

人理解统计数据的难度至少存在三层:

第一,数据造假非常容易,但作为普通读者分辨起来却无比困难;

第二,就算数据是真实可靠的,还可能在采样过程中、分析理解数据时、设计试验中犯各种有心或无意的错误;

第三,就算所有技术性问题都被消灭了,面对真实可靠的数据与合理权威的推论,接收者却不一定能客观地分析乃至接受。因为,我们倾向于相信自己本来就相信的事物(confirmation bias)。

否则,为什么世界各地还有不少人认为地球是平的呢。