良好判断计划的参与者被激励去密切关注新闻......《噪声》摘录

管理类日期 2022-12-03

良好判断计划的参与者被激励去密切关注新闻并不断更新他们的预测。这种方法反映出人们期望企业和政府预测人员也能够根据新的信息更新预测，尽管后者有可能因为改变主意而遭到批评。对这种批评有个非常常见的回应，有人认为它出自经济学家约翰·梅纳德·凯恩斯（Joh Mayard Keyes）：“当事实改变时，我改变了主意。你又能怎样？”

最后，为了给预测者的表现打分，良好判断计划使用了格伦·W.布赖尔（Gle W. Brier）于1950年研发的系统。该系统被称为“布赖尔分数”（Brier scores），可以测量人们的预测值和实际值之间的差距。

布赖尔分数是一种巧妙的方法，它可以绕过一个与概率预测相关的普遍存在的问题：预测者通过避免采取大胆的立场来对自己的预测做两手准备。再想想玛格丽特的例子，在我们的描述中她是一个校准效果良好的预测者，因为她将500个事件的发生率定为60%，其中300个事件确实发生了。这个结果可能没有看上去那么厉害。如果玛格丽特是一个天气预报员，她总是预测有60%的可能性下雨，而且500天中有300天下雨，那么玛格丽特的预测是很准的，但也是无用的，因为玛格丽特其实是在告诉你，你可能每天都要带把伞以防万一。拿她和尼古拉斯做个比较，尼古拉斯预测有300天下雨的概率是100%，有200天下雨的概率是0。尼古拉斯和玛格丽特有同样完美的校准：这两位预报员都预测有X%的日子会下雨，且实际也正是如此，但显然尼古拉斯的预测更有价值：他没有为自己的预测做两手准备，而是明确地告诉你是否应该带伞。从技术上讲，尼古拉斯的判断除了良好判断计划的参与者被激励去密切关注新闻并不断更新他们的预测。这种方法反映出人们期望企业和政府预测人员也能够根据新的信息更新预测，尽管后者有可能因为改变主意而遭到批评。对这种批评有个非常常见的回应，有人认为它出自经济学家约翰·梅纳德·凯恩斯（Joh Mayard Keyes）：“当事实改变时，我改变了主意。你又能怎样？”

最后，为了给预测者的表现打分，良好判断计划使用了格伦·W.布赖尔（Gle W. Brier）于1950年研发的系统。该系统被称为“布赖尔分数”（Brier scores），可以测量人们的预测值和实际值之间的差距。

布赖尔分数是一种巧妙的方法，它可以绕过一个与概率预测相关的普遍存在的问题：预测者通过避免采取大胆的立场来对自己的预测做两手准备。再想想玛格丽特的例子，在我们的描述中她是一个校准效果良好的预测者，因为她将500个事件的发生率定为60%，其中300个事件确实发生了。这个结果可能没有看上去那么厉害。如果玛格丽特是一个天气预报员，她总是预测有60%的可能性下雨，而且500天中有300天下雨，那么玛格丽特的预测是很准的，但也是无用的，因为玛格丽特其实是在告诉你，你可能每天都要带把伞以防万一。拿她和尼古拉斯做个比较，尼古拉斯预测有300天下雨的概率是100%，有200天下雨的概率是0。尼古拉斯和玛格丽特有同样完美的校准：这两位预报员都预测有X%的日子会下雨，且实际也正是如此，但显然尼古拉斯的预测更有价值：他没有为自己的预测做两手准备，而是明确地告诉你是否应该带伞。从技术上讲，尼古拉斯的判断除了校准效果好外，还有很高的辨析度。

布赖尔分数会对准确的校准和准确的辨析度打出高分。为了得高分，你不仅要在平均水平上是正确的（即校准效果良好），而且要能够表明立场，区分不同的预测（即具有高分辨率）。布赖尔分数以均方误差的逻辑为基础，分数越低越好——0分就是完美。

我们已经了解了评分机制，那么良好判断计划的志愿者表现如何呢？其中一个主要的发现是，绝大多数志愿者的表现都很差，但是有2%的人表现突出。前面说过，泰特洛克称这些表现良好的人为超级预测者。他们几乎从不犯错，他们的预测明显高于随机水平。值得注意的是，一位政府官员表示，这些人的表现明显“好于能够阅读情报和其他秘密数据的情报界分析师的平均水平”。这个类比值得我们反思，情报界的分析专家受过训练，能够做出准确的预测，而且，他们还可以了解机密信息，然而，他们的表现却比不上超级预测者。

永久测试版：一个特殊的思维循环

超级预测者为何如此优秀？与我们在第18章中的论述一致，我们可以合理地推测他们异常聪明。这种推测并没有错。在GMA测试中，超级预测者在良好判断计划中的表现比普通志愿者更好，而普通志愿者的成绩已经明显高于平均水平。但差别并不总是那么大，许多在智力测试中表现非常好的志愿者并没有成为超级预测者。除了常规智力，我们可以合理地预期超级预测者在数学方面的能力异常出色。他们的确如此。但他们真正的优势不是数学天赋，而是能够轻松自如校准效果好外，还有很高的辨析度。

布赖尔分数会对准确的校准和准确的辨析度打出高分。为了得高分，你不仅要在平均水平上是正确的（即校准效果良好），而且要能够表明立场，区分不同的预测（即具有高分辨率）。布赖尔分数以均方误差的逻辑为基础，分数越低越好——0分就是完美。

我们已经了解了评分机制，那么良好判断计划的志愿者表现如何呢？其中一个主要的发现是，绝大多数志愿者的表现都很差，但是有2%的人表现突出。前面说过，泰特洛克称这些表现良好的人为超级预测者。他们几乎从不犯错，他们的预测明显高于随机水平。值得注意的是，一位政府官员表示，这些人的表现明显“好于能够阅读情报和其他秘密数据的情报界分析师的平均水平”。这个类比值得我们反思，情报界的分析专家受过训练，能够做出准确的预测，而且，他们还可以了解机密信息，然而，他们的表现却比不上超级预测者。

永久测试版：一个特殊的思维循环

超级预测者为何如此优秀？与我们在第18章中的论述一致，我们可以合理地推测他们异常聪明。这种推测并没有错。在GMA测试中，超级预测者在良好判断计划中的表现比普通志愿者更好，而普通志愿者的成绩已经明显高于平均水平。但差别并不总是那么大，许多在智力测试中表现非常好的志愿者并没有成为超级预测者。除了常规智力，我们可以合理地预期超级预测者在数学方面的能力异常出色。他们的确如此。但他们真正的优势不是数学天赋，而是能够轻松自如地应用分析思维和概率思维。

想一想超级预测者对问题进行组织和分解的意愿和能力。他们不会对一个国家是否会退出欧盟、一场战争是否会在某地爆发这样的问题形成一个整体判断，而是将其分解为几个组成部分。他们会问：“什么情况下答案才是肯定的？什么情况下答案是否定的？”他们会问并试图回答一系列辅助问题，而不是给出一种直觉或整体的预感。

超级预测者也擅长从外部视角看问题，他们非常关心基准概率。正如第13章中对迈克尔·甘巴迪问题的阐述，你在关注甘巴迪的个人资料的细节之前，了解一下普通CEO在两年内被解雇或辞职的概率是很有帮助的。超级预测者会系统性地寻找基准概率，当被问及两个国家次年是否会因边境争端而发生武装冲突时，超级预测者们并不只关注或立即去关注这两个国家目前是否相处融洽。根据他们读到的新闻和分析，他们可能对此有一定的直观感受，但他们知道，对某件事情的直觉往往不可靠。相反，他们一开始会去寻找一个基准概率：他们会询问过去的边界争端升级为武装冲突的频率。如果这样的冲突很少发生，超级预测者将首先考虑这一事实，再去了解两国局势的详细信息。

简而言之，超级预测者的与众不同之处不在于他们智力过人，而在于他们明白如何运用智慧。他们运用智慧的技能反映了我们在第18章中描述的那种可能产生更好判断的认知风格，尤其是高水平的“积极开放性思维”。回想一下关于积极开放性思维的测试：它包括“人们应该考虑与他们的看法相悖的证据”和“关注与你意见不同的人比关注那些与你意见一致的人更有用”。显然，在这项测试中得分地应用分析思维和概率思维。

想一想超级预测者对问题进行组织和分解的意愿和能力。他们不会对一个国家是否会退出欧盟、一场战争是否会在某地爆发这样的问题形成一个整体判断，而是将其分解为几个组成部分。他们会问：“什么情况下答案才是肯定的？什么情况下答案是否定的？”他们会问并试图回答一系列辅助问题，而不是给出一种直觉或整体的预感。

超级预测者也擅长从外部视角看问题，他们非常关心基准概率。正如第13章中对迈克尔·甘巴迪问题的阐述，你在关注甘巴迪的个人资料的细节之前，了解一下普通CEO在两年内被解雇或辞职的概率是很有帮助的。超级预测者会系统性地寻找基准概率，当被问及两个国家次年是否会因边境争端而发生武装冲突时，超级预测者们并不只关注或立即去关注这两个国家目前是否相处融洽。根据他们读到的新闻和分析，他们可能对此有一定的直观感受，但他们知道，对某件事情的直觉往往不可靠。相反，他们一开始会去寻找一个基准概率：他们会询问过去的边界争端升级为武装冲突的频率。如果这样的冲突很少发生，超级预测者将首先考虑这一事实，再去了解两国局势的详细信息。

简而言之，超级预测者的与众不同之处不在于他们智力过人，而在于他们明白如何运用智慧。他们运用智慧的技能反映了我们在第18章中描述的那种可能产生更好判断的认知风格，尤其是高水平的“积极开放性思维”。回想一下关于积极开放性思维的测试：它包括“人们应该考虑与他们的看法相悖的证据”和“关注与你意见不同的人比关注那些与你意见一致的人更有用”。显然，在这项测试中得分很高的人在新的信息出现时会大大方方地更新自己的判断，而不会反应过度。

为了描述超级预测者的思维方式，泰特洛克使用了“永久测试版”（perpetual beta）的说法。这是一个程序员常会使用的术语，指的是一个不打算在最终版本中发布，却被无休止地使用、分析和改进的程序。泰特洛克发现：跻身超级预测者行列的最有力的预测因素是“永久测试版”，即人们致力于更新看法和提高自我完善的程度。正如泰特洛克所说：“超级预测者之所以如此优秀，不在于他们是谁，而在于他们做了什么——艰苦的研究工作，仔细的思考和自我批判，对其他观点的收集和汇总，细微的判断和不懈的更新。”他们喜欢一个特殊的思维循环：尝试，失败，分析，调整，再试一次。

预测中的噪声和偏差

此时，你可能会想，人们可以被训练成超级预测者，或者至少变得更像一位超级预测者。事实上，泰特洛克及其合作者正在为此而努力。他们做的工作可以被视作了解“超级预测者为何表现如此出色，以及如何让他们更出色”的第二个阶段。

在一项重要的研究中，泰特洛克和他的团队将普通预测者随机分为3组，来测试不同干预措施对其后续判断品质的影响。这些干预措施恰好对应我们描述的改善判断的3种策略。

·　培训：一些预测者完成了一个概率推理的课程，以期提升他们的预测能力。在这个课程中，预测者们了解了各种偏差（包括忽视很高的人在新的信息出现时会大大方方地更新自己的判断，而不会反应过度。

为了描述超级预测者的思维方式，泰特洛克使用了“永久测试版”（perpetual beta）的说法。这是一个程序员常会使用的术语，指的是一个不打算在最终版本中发布，却被无休止地使用、分析和改进的程序。泰特洛克发现：跻身超级预测者行列的最有力的预测因素是“永久测试版”，即人们致力于更新看法和提高自我完善的程度。正如泰特洛克所说：“超级预测者之所以如此优秀，不在于他们是谁，而在于他们做了什么——艰苦的研究工作，仔细的思考和自我批判，对其他观点的收集和汇总，细微的判断和不懈的更新。”他们喜欢一个特殊的思维循环：尝试，失败，分析，调整，再试一次。

预测中的噪声和偏差

此时，你可能会想，人们可以被训练成超级预测者，或者至少变得更像一位超级预测者。事实上，泰特洛克及其合作者正在为此而努力。他们做的工作可以被视作了解“超级预测者为何表现如此出色，以及如何让他们更出色”的第二个阶段。

在一项重要的研究中，泰特洛克和他的团队将普通预测者随机分为3组，来测试不同干预措施对其后续判断品质的影响。这些干预措施恰好对应我们描述的改善判断的3种策略。

·　培训：一些预测者完成了一个概率推理的课程，以期提升他们的预测能力。在这个课程中，预测者们了解了各种偏差（包括忽视基准概率、过分自信和证实性偏差）、对不同来源的多个预测取平均值的重要性，并将参照类别纳入考量。

·　团队合作（一种汇总判断的形式）：让一些预测者组成团队，这样一来，他们就可以看到彼此的预测，并能够进行讨论。团队合作可以通过鼓励预测者应对相反的论点、保持积极开放的思维来提高准确性。

·　甄选：对所有预测者的准确度进行评分，在年终时，排名前2%的人被指定为超级预测者，并有机会在接下来的一年里与精英团队合作。

事实证明，这3种干预措施都非常有效，从某种意义上说，它们提高了人们的布赖尔分数，而且我们发现训练是有效的，团队合作更有效，甄选的效果最优。

这一重要发现证实了汇总判断和选择优秀判断者的价值，但这并不是全部。有了关于每次干预效果的数据，泰特洛克和梅勒斯的合作者维莱·萨托帕（Ville Satopää）开发了一种复杂的统计技术，以梳理每一种干预措施究竟是如何改善预测的。他推断，从原则上讲，一些预测者的表现比其他人更好或更差的主要原因有3个：

·　他们可以更熟练地发现和分析环境中与自己要做出的预测相关的数据，这也说明了信息的重要性。

·　一些预测者可能总倾向于错误地高估或低估预测的真实值。如果在成百上千的预测中，你在整体上高估或低估了发生某种变化的基准概率、过分自信和证实性偏差）、对不同来源的多个预测取平均值的重要性，并将参照类别纳入考量。

·　团队合作（一种汇总判断的形式）：让一些预测者组成团队，这样一来，他们就可以看到彼此的预测，并能够进行讨论。团队合作可以通过鼓励预测者应对相反的论点、保持积极开放的思维来提高准确性。

·　甄选：对所有预测者的准确度进行评分，在年终时，排名前2%的人被指定为超级预测者，并有机会在接下来的一年里与精英团队合作。

事实证明，这3种干预措施都非常有效，从某种意义上说，它们提高了人们的布赖尔分数，而且我们发现训练是有效的，团队合作更有效，甄选的效果最优。

这一重要发现证实了汇总判断和选择优秀判断者的价值，但这并不是全部。有了关于每次干预效果的数据，泰特洛克和梅勒斯的合作者维莱·萨托帕（Ville Satopää）开发了一种复杂的统计技术，以梳理每一种干预措施究竟是如何改善预测的。他推断，从原则上讲，一些预测者的表现比其他人更好或更差的主要原因有3个：

·　他们可以更熟练地发现和分析环境中与自己要做出的预测相关的数据，这也说明了信息的重要性。

·　一些预测者可能总倾向于错误地高估或低估预测的真实值。如果在成百上千的预测中，你在整体上高估或低估了发生某种变化的

声明：部分内容来自互联网，如侵权请联系删除!

友情：思诺速记

良好判断计划的参与者被激励去密切关注新闻......《噪声》摘录

相关推荐

推荐列表

热门标签