被称为客观无知哪里有预测哪里就有客观无知......《噪声》摘录

管理类 日期 2024-01-07
被称为客观无知,哪里有预测,哪里就有客观无知,而且客观无知比你想象的要严重得多。

异常自信的权威:准确性和黑猩猩扔飞镖差不多

心理学家菲利普·泰特洛克是我们的好朋友,他是一个坚持真理且充满幽默感的人。2005年,他出版了《专家的政治判断》(Expert Political Judgmet)一书。书名听起来是中性的,但实际上这本书对专家预测政治事件的能力进行了猛烈抨击。

泰特洛克研究了近300位专家的预测,包括著名的记者、受人尊敬的学者以及国家领导人的高级智囊团等。他想验证这些人的政治、经济和社会性预测是否正确,这项研究持续了20年之久。可见,想要验证长期性预测是否正确,你必须有足够的耐心。

泰特洛克的主要发现是:这些所谓的专家在对重大政治事件进行预测时表现得非常糟糕。书中有句玩笑话很有名:“整体上,普通专家预测的准确性和黑猩猩扔飞镖差不多。”更精确地说,那本书的核心内容是:那些以“对政治和经济趋势发表评论或提供建议”谋生的专家,他们“在‘展望’新趋势时,做得并不比《纽约时报》的记者或细心的读者好”。可以肯定的是,专家们讲故事的能力很强,他们可以分析形势,并用令人信服的方式来描绘事态的发展趋势,并满怀信心地在演播室里反驳那些提出反对意见的人,但是他们真的知道会发生什么事吗?事实上,他们可能并不知道。

泰特洛克撕开了专家们的面具,并得出了上述结论。对于每个预被称为客观无知,哪里有预测,哪里就有客观无知,而且客观无知比你想象的要严重得多。

异常自信的权威:准确性和黑猩猩扔飞镖差不多

心理学家菲利普·泰特洛克是我们的好朋友,他是一个坚持真理且充满幽默感的人。2005年,他出版了《专家的政治判断》(Expert Political Judgmet)一书。书名听起来是中性的,但实际上这本书对专家预测政治事件的能力进行了猛烈抨击。

泰特洛克研究了近300位专家的预测,包括著名的记者、受人尊敬的学者以及国家领导人的高级智囊团等。他想验证这些人的政治、经济和社会性预测是否正确,这项研究持续了20年之久。可见,想要验证长期性预测是否正确,你必须有足够的耐心。

泰特洛克的主要发现是:这些所谓的专家在对重大政治事件进行预测时表现得非常糟糕。书中有句玩笑话很有名:“整体上,普通专家预测的准确性和黑猩猩扔飞镖差不多。”更精确地说,那本书的核心内容是:那些以“对政治和经济趋势发表评论或提供建议”谋生的专家,他们“在‘展望’新趋势时,做得并不比《纽约时报》的记者或细心的读者好”。可以肯定的是,专家们讲故事的能力很强,他们可以分析形势,并用令人信服的方式来描绘事态的发展趋势,并满怀信心地在演播室里反驳那些提出反对意见的人,但是他们真的知道会发生什么事吗?事实上,他们可能并不知道。

泰特洛克撕开了专家们的面具,并得出了上述结论。对于每个预测性问题,他都要求专家给出三种结果(维持现状、很可能发生或不大可能发生)的对应概率。在理想情况下,即使让一只黑猩猩通过扔飞镖的方式进行选择,它都会以相同的概率(1/3)“选中”三个结果中的任意一个。泰特洛克发现,专家们预测的准确率并不比这一最低标准好多少。平均而言,他们评估那些未来真正发生了的事件时,给出的概率只比那些最终没有发生的事件稍微高一点,但他们常常表现得异常自信。那些对世界该如何运转拥有一套清晰理论的权威人士是最自信的,也是最不可靠的。

泰特洛克的发现表明,对具体事件进行详细的、长期性的预测根本不可能。这个世界是混乱的,一些微不足道的小事都可能引发严重的后果。例如,在受孕的瞬间,历史上的每个重要人物以及无关紧要的人物都有50%的可能性会以另一种性别出生。那样一来,注定会发生不可预见的事件,而且这些不可预见的事件的后果也是不可预见的。因此,你对未来的展望越远,客观无知就积累得越多。专家们在政治判断上的局限性并非源于预测者的认知局限,而是由他们对未来的客观无知所决定的。因此,我们的结论是:不应该将专家失败的预测归咎于专家本人。但是,他们确实应该受到批评,因为他们在尝试完成一项不可能完成的任务,却相信自己可以做到。

泰特洛克还有一项令人震惊的发现:长期预测毫无用处。几年后,他与妻子芭芭拉·梅勒斯(Barbara Mellers)合作,研究了人们在相对较短的时间内(通常不到一年)对事件进行预测的情况。他们发现:短期预测是困难的,但并非不可能,而且有些人始终比大多数人(包括情报界的专业人士)预测得好。泰特洛克和梅勒斯将这些人称为测性问题,他都要求专家给出三种结果(维持现状、很可能发生或不大可能发生)的对应概率。在理想情况下,即使让一只黑猩猩通过扔飞镖的方式进行选择,它都会以相同的概率(1/3)“选中”三个结果中的任意一个。泰特洛克发现,专家们预测的准确率并不比这一最低标准好多少。平均而言,他们评估那些未来真正发生了的事件时,给出的概率只比那些最终没有发生的事件稍微高一点,但他们常常表现得异常自信。那些对世界该如何运转拥有一套清晰理论的权威人士是最自信的,也是最不可靠的。

泰特洛克的发现表明,对具体事件进行详细的、长期性的预测根本不可能。这个世界是混乱的,一些微不足道的小事都可能引发严重的后果。例如,在受孕的瞬间,历史上的每个重要人物以及无关紧要的人物都有50%的可能性会以另一种性别出生。那样一来,注定会发生不可预见的事件,而且这些不可预见的事件的后果也是不可预见的。因此,你对未来的展望越远,客观无知就积累得越多。专家们在政治判断上的局限性并非源于预测者的认知局限,而是由他们对未来的客观无知所决定的。因此,我们的结论是:不应该将专家失败的预测归咎于专家本人。但是,他们确实应该受到批评,因为他们在尝试完成一项不可能完成的任务,却相信自己可以做到。

泰特洛克还有一项令人震惊的发现:长期预测毫无用处。几年后,他与妻子芭芭拉·梅勒斯(Barbara Mellers)合作,研究了人们在相对较短的时间内(通常不到一年)对事件进行预测的情况。他们发现:短期预测是困难的,但并非不可能,而且有些人始终比大多数人(包括情报界的专业人士)预测得好。泰特洛克和梅勒斯将这些人称为“超级预测者”(superforecasters)。在我们看来,客观无知会随着我们对未来展望的深入而增多,他们的新发现恰恰与这一观点相符。我们将在第21章中继续讨论超级预测者。

人的判断很糟糕,但模型也不尽如人意

泰特洛克的早期研究表明,对于时间跨度较大的政治预测,人们往往是无能为力的。要想证明一项任务是不可能完成的,只有在很多可靠的参与者尝试了该任务并且都失败了的情况下才能做到,时间跨度较大的政治预测便是如此。我们已经给大家展示过,对信息进行机械性汇总的结果通常比人类的判断更优。由于在预测方面的准确性,规则和算法能够更好地验证某些结果能否真正被预测。

前面的章节可能会让你形成一种印象,即算法在进行预测性判断时具有压倒性的优势,但是你有这种印象可能是被误导了。模型确实比人表现得更好,但并没有好很多。没有证据表明,在依据相同的信息进行预测时,人类表现得非常差而模型却表现得非常好。

在第9章,我们提到有一篇报告对136项研究进行了回顾,这些研究表明机械性的整合优于诊断性判断。尽管这种优势的确是“大规模且一致的”,但两者的表现差距并不大。该报告中有93项研究关注的是二选一的决策问题,它们衡量了临床医生和公式的“命中率”。总体来说,临床医生有68%的预测是正确的,而公式有73%的预测是正确的。报告中另有35项研究用相关系数来衡量预测的准确性。这些研究发现,临床医生的判断与真实结果的平均相关系数为“超级预测者”(superforecasters)。在我们看来,客观无知会随着我们对未来展望的深入而增多,他们的新发现恰恰与这一观点相符。我们将在第21章中继续讨论超级预测者。

人的判断很糟糕,但模型也不尽如人意

泰特洛克的早期研究表明,对于时间跨度较大的政治预测,人们往往是无能为力的。要想证明一项任务是不可能完成的,只有在很多可靠的参与者尝试了该任务并且都失败了的情况下才能做到,时间跨度较大的政治预测便是如此。我们已经给大家展示过,对信息进行机械性汇总的结果通常比人类的判断更优。由于在预测方面的准确性,规则和算法能够更好地验证某些结果能否真正被预测。

前面的章节可能会让你形成一种印象,即算法在进行预测性判断时具有压倒性的优势,但是你有这种印象可能是被误导了。模型确实比人表现得更好,但并没有好很多。没有证据表明,在依据相同的信息进行预测时,人类表现得非常差而模型却表现得非常好。

在第9章,我们提到有一篇报告对136项研究进行了回顾,这些研究表明机械性的整合优于诊断性判断。尽管这种优势的确是“大规模且一致的”,但两者的表现差距并不大。该报告中有93项研究关注的是二选一的决策问题,它们衡量了临床医生和公式的“命中率”。总体来说,临床医生有68%的预测是正确的,而公式有73%的预测是正确的。报告中另有35项研究用相关系数来衡量预测的准确性。这些研究发现,临床医生的判断与真实结果的平均相关系数为0.3(PC=60%),而公式预测的相关系数是0.56(PC=69%)。在这两个指标上,公式总是比临床医生预测得好,但是机械性预测的有效性依然有限,使用模型并不能改变相当低的预测性的上限。

人工智能的预测性如何呢?正如前文所述,人工智能通常要比简单模型表现得好,但在大多数情况下,它的表现远称不上完美。例如,请回想一下我们在第10章中讨论过的保释预测算法,我们发现,被拒绝保释的人数如果保持不变,该算法可以将犯罪率降低24%,相比于法官所做的预测,这是一个较大幅度的改进。但是,如果该算法可以准确地预测哪些被告会再次犯罪的话,它就能更大幅度地降低犯罪率。对未来将发生的犯罪行为进行预测是一种超自然的能力,它只存在于《少数派报告》(Miority Report)这种科幻小说中,因为对人类行为进行预测要面临大量的客观无知。

由塞德希尔·穆来纳森和齐亚德·欧博迈亚(Ziad Obermeyer)完成的另一项研究对心脏病诊断进行了建模。当患者有心脏病突发的迹象时,急诊医生必须决定是否需要进行额外的检查。原则上,仅当患者心脏病突发的风险足够高时才应进行额外的检查——这些检查不仅昂贵,而且有一定的风险性和侵害性。低风险患者无须进行额外的检查。因此,医生在决定是否开检查单时需要先评估患者心脏病突发的风险。研究者建立了一个人工智能模型来完成这一评估。该模型基于大样本数据(160万名患者的440万次医保就诊记录),并且使用了2400多个变量,有如此大的数据量,该模型应该可以突破客观无知的限制。

不出所料,该人工智能模型的准确性明显超过临床医生。若想进0.3(PC=60%),而公式预测的相关系数是0.56(PC=69%)。在这两个指标上,公式总是比临床医生预测得好,但是机械性预测的有效性依然有限,使用模型并不能改变相当低的预测性的上限。

人工智能的预测性如何呢?正如前文所述,人工智能通常要比简单模型表现得好,但在大多数情况下,它的表现远称不上完美。例如,请回想一下我们在第10章中讨论过的保释预测算法,我们发现,被拒绝保释的人数如果保持不变,该算法可以将犯罪率降低24%,相比于法官所做的预测,这是一个较大幅度的改进。但是,如果该算法可以准确地预测哪些被告会再次犯罪的话,它就能更大幅度地降低犯罪率。对未来将发生的犯罪行为进行预测是一种超自然的能力,它只存在于《少数派报告》(Miority Report)这种科幻小说中,因为对人类行为进行预测要面临大量的客观无知。

由塞德希尔·穆来纳森和齐亚德·欧博迈亚(Ziad Obermeyer)完成的另一项研究对心脏病诊断进行了建模。当患者有心脏病突发的迹象时,急诊医生必须决定是否需要进行额外的检查。原则上,仅当患者心脏病突发的风险足够高时才应进行额外的检查——这些检查不仅昂贵,而且有一定的风险性和侵害性。低风险患者无须进行额外的检查。因此,医生在决定是否开检查单时需要先评估患者心脏病突发的风险。研究者建立了一个人工智能模型来完成这一评估。该模型基于大样本数据(160万名患者的440万次医保就诊记录),并且使用了2400多个变量,有如此大的数据量,该模型应该可以突破客观无知的限制。

不出所料,该人工智能模型的准确性明显超过临床医生。若想进一步评估该模型的预测性能,请你想一下,如果对那些被模型判定为具有最高发病风险(前10%)的患者进行检查,并发现其中有30%的人确实会突发心脏病,而那些被模型判定为具有中等发病风险的患者中,只有9.3%的人突发了心脏病,我们就可以据此推论,医生的表现受限于客观无知的程度,至少与其受限于判断力不足的程度相差无几。

否认无知是无知的另一种诱导

完美预测是不可能实现的,这似乎是显而易见的事。当然,断言未来是不可预测的也算不上什么具有突破性的见解。然而,众多研究证据都表明,人们做预测时会过分自信,这说明很多时候这一显而易见的事实被我们忽视了。

过分自信的普遍性让我们对非正式调查中那些相信直觉的决策者有了新看法。我们发现,人们经常错误地将自信水平这一主观指标当成预测有效性的指标。例如,在第9章中,看完有关娜塔莉和莫妮卡的信息后,你做出了与信息相一致的判断,这时内部信号就会使你确信娜塔莉是更优的候选人。如果你对你的预测充满信心,你就已经陷入了效度错觉中:仅通过你所获取的信息进行预测,其准确性必然非常低。

那些对自己的判断极度自信的人否认自己的判断中存在噪声和偏差。他们不仅认为自己优于常人,甚至认为自己可以对一些实际上不可预测的事件进行预测。也就是说,他们从根本上否认现实的不确定一步评估该模型的预测性能,请你想一下,如果对那些被模型判定为具有最高发病风险(前10%)的患者进行检查,并发现其中有30%的人确实会突发心脏病,而那些被模型判定为具有中等发病风险的患者中,只有9.3%的人突发了心脏病,我们就可以据此推论,医生的表现受限于客观无知的程度,至少与其受限于判断力不足的程度相差无几。

否认无知是无知的另一种诱导

完美预测是不可能实现的,这似乎是显而易见的事。当然,断言未来是不可预测的也算不上什么具有突破性的见解。然而,众多研究证据都表明,人们做预测时会过分自信,这说明很多时候这一显而易见的事实被我们忽视了。

过分自信的普遍性让我们对非正式调查中那些相信直觉的决策者有了新看法。我们发现,人们经常错误地将自信水平这一主观指标当成预测有效性的指标。例如,在第9章中,看完有关娜塔莉和莫妮卡的信息后,你做出了与信息相一致的判断,这时内部信号就会使你确信娜塔莉是更优的候选人。如果你对你的预测充满信心,你就已经陷入了效度错觉中:仅通过你所获取的信息进行预测,其准确性必然非常低。

那些对自己的判断极度自信的人否认自己的判断中存在噪声和偏差。他们不仅认为自己优于常人,甚至认为自己可以对一些实际上不可预测的事件进行预测。也就是说,他们从根本上否认现实的不确定

声明:部分内容来自互联网,如侵权请联系删除!

相关推荐

管理类 / 日期:2024-03-11
理解那个东西,但是我已经发现,他的信息距离和我越来越近了。因为他不再看《舟山晚报》,我也不再看《新民晚报》了,我们看的都是腾讯新闻App,看新闻头条,他也看我的朋友圈。所以信息高速一旦被打通了,一、二线和三、四线城市之间的认知壁垒也逐渐被打破了。要掌握70%~80%的都市消费,其实就是掌握两亿中产阶层。像分众这样的公司,之所以能够覆盖78%有家庭汽车的、80
管理类 / 日期:2024-03-11
实现资产最大限度的增值。一些合伙人可以通过“股权转让”等资产重组方式退出。二、退出如何结算当合伙人退出公司后,其所持的股权应该按照一定的形式退出。一方面对于继续在公司里做事的其他合伙人更公平;另一方面也便于公司的持续稳定发展。而合伙人退出之后,如何结算也是一个问题。一般采用三种方法:估值法、参考相关法律、另外约定。估值法,即当合伙人中途退出,退出时公司可以按
管理类 / 日期:2024-01-07
(4)(viabilité)概念用以研究凯恩斯主义思想的多种接受形式,我们由此发展出改革剧目或改革剧目某个组成部分的“知识可行性”(viabilité itellectuelle),用以显示其知识可靠性(论据充实可靠)特征,描绘其对改革参与主体(部长、高级官员、专家)产生意义的方式。如果改革参与主体认为改革剧目是建立在“有力的理由”之上的(5)(6)、能够提
管理类 / 日期:2024-01-07
拓前人未涉的领域时,在自己的心中,必须具备指引方向的指南针,借以坚定前进的信心。所谓心中的指南针,就是类似于“信念”的强烈愿望。在新型陶瓷这个行业内,京瓷是最后出发的。开始时,技术、设备、人才都不足,所拥有的只有“愿望”。但是,京瓷的发展证明,只要有这种“愿望”,只要这种“愿望”足够强烈,就足以克服任何不利条件,达到预定的目的地。当然,划时代的发明创造,不是

推荐列表

热门标签