轶事不代表因果

职业指南
王智远
2023-02-14

如果你看到别人吃某种食物后,不舒服,或在某种动物周围做了某些事情后受伤,就不会做同样的事。不幸的是,这种“走捷径”的思维不一定能得到正确结论。

比如:

  • 今天下场大雪,所以全球变暖

  • 爷爷抽烟活到80岁,所以抽烟不可能致癌

  • 打完疫苗又流鼻涕,可能是疫苗引起的

这些案例代表什么?也许会说“因果谬误”。不对,我把它称为轶事证据(anecdotal evidence)。什么意思呢?

按照定义,以非正式手段,收集的源于私下传闻的证据,进行概括归纳,用在工作中。就像,有些案例以八卦、假新闻被人一传再传,造成三人成虎,让人听久便信以为真。

它的关键是,不同寻常的故事,不能代表完整的经验。

比如:

遇到奇妙经历,我们更有可能撰写离奇怪异的评论,结果,从轶事中吸取的经验是,这种单一事件有可能会发生。

你听到“有人抽烟没得肺癌”,只能证明,你不抽烟的话,不能保证一定会得肺癌;仅依靠这则轶事,你并无法知晓普通吸烟者患肺癌的概率或吸烟者患肺癌概率的可能性,比不抽烟者大多少。

轶事证据会引发什么呢?

统计学家用“相关性不代表因果性”(correlation does not imply causation)描述过这种谬论,当出现轶事时,人们会忽略某个混淆因素

“混淆因素”指,并非显而易见的第三方因素,该因素既会影响“假定的原因”,也会影响观察者的效应,从而造成人们无法得到正确结论。

比如:

人们在季节交替接种疫苗,就很容易把感冒和流感混淆;其实,不论是否接种,这段时期都容易得病。

其他情况下,相关性可能随机出现,如今互联网发达,各种信息之间的相关性比任何时候容易,当中必然出现诸多虚假信息。

有本书叫《虚假相关》(Spurious Correlations),指两个没有因果关系的事件,可能基于其他没有见过的干扰因素,让人猜想“两件事有所联系”,然而,这种联系并不能通过精细的分析得到结论。

作者泰勒·维根(Tyler Vigen)展示了一些可笑的案例。

比如:

劳伦上高中时,有一回觉得自己好像要感冒,爸爸让她多喝水,说这样能够好起来;那一天她足足喝掉半箱斯纳普(Snapple)牌树莓果汁。

令人惊讶,第二天居然感觉好很多,这种情况你在现实中,是不是也遇到过?难道,该证据就能表明,树莓果汁有治疗普通感冒的功效吗?

显然,不能。

她可能因为喝了一大堆果汁后,身体原本的自愈能力,恰巧让她康复了;也可能根本没病,只是前天没睡好,造成第二天感觉不好。

许多品牌宣传会借助顺势疗法,加入类似的巧合轶事,它们并不会提到,如果没有进行治疗,可能会发生什么事,毕竟,你的确得病后,每天的症状也不同。

所以,在相信任何品牌(商品)具备某功效前,应该先获取可靠数据,甚至相关权威性报道来重新审视。

也许,你作为品牌方并不知道商品有这些功效,想靠市场调研收集反馈,第一步就是“界定或理解假设”,对所有研究的效应提出解释。

提前弄清楚有助于避免“德州神枪手谬误”(Texassharpshooter fallacy),该谬误得名一个笑话,说一个人来到一座谷仓,发现墙上画着很多靶子,每个靶子中间都有一个弹孔。

他为射手的精准度感到惊叹不已,后来发现,射手在乱射一通后绕过弹孔画的靶子,与此相似的概念叫“移动的目标”,指,得出实验结果前修改目标,以便支持自己的结论。

简单的说,大量数据或者证据中,只挑选对自己有利的证据。想避免上述情况发生,可以采用A/B测试法(A/B testing)。

该方法被称为“黄金标准”。

在互联网中会分为A或B两个版本来对照用户行为,或者将参与者分为两组,比较两组的结果。

另外,最理想的状态,还可以进行“盲测”(blinded),也就是,不让参与者知道自己是哪一组,这样可以避免他们有意、无意的偏好影响实验结果。

盲测目的有助于减少“观察者期望偏差”,但并不能完全避免,因为分析中,我们会通过选择性的阅读背景资料,根据先前构想的概念假设,以及选择性地汇报实验结果等。

你肯定听说过“安慰剂效应”。

分析时收到的东西看起来,感觉起来与实现时类似,只是本该毫无结果,很多老板在工作中,经常让员工调研一番,最后还是会依照此前决定进行,这种效应并非纯粹出于想象。

比如:

“止痛药”引起的大脑活动和“缓解疼痛的药物”基本一致、对父母来说,“爱的亲亲”能缓解孩子内心疼痛,但是安慰剂效应,也很容易出现副作用。

如果你想设计出可靠的实验,难点在于“关键指标”,它可能包括,是否有人购买产品、用户是否点击了网站上的某个按钮等。

有些关键指标并无法准确衡量,我们会采用“替代指标”(surrogate marker),以保证与自己想要测量的最终结果接近。

就像:

《美国新闻与世界报道》杂志,每年都会将一系列客观性和相对主观的衡量标准,综合起来,用一种替代指标给各所学校排名。

数据分析中,常见替代指标还包括衡量肥胖度的“体质指数”(BMI)和测量智力的“智商”(IQ),它们更容易遭到吐糟,因为不准确,是间接性。

所以,你必须警惕虚假,相关性、微妙的认知偏差,以促进思考的结果,看似精心设计的实验有时都会出现问题,更别说轶事证据。

总结而言:

工作中的“轶事证据”“相关性”会促使你提出假设、进行有效思考,但相关性不代表“因果性”。

混淆因素,会影响原因与决策质量,我们必须避免“得州神枪手谬误”,最理想状态通过盲测、A/B测试法来避开安慰效应出现。

有些关键指标我们无法衡量,会通过“替代指标”完成,这些替代,只能作为参考性之一。

参与讨论

回到顶部