基于“脆弱家庭”研究中收集的大量数据来预测6种结果,看谁预测得更准确。这种比赛在社会科学领域是一件新鲜事,在计算机科学领域却很常见。计算机科学领域经常会有组织请一些团队来参加比赛,完成诸如用机器翻译一段标准化的文字或从大量照片中识别动物图片的任务。获胜团队在比赛中所取得的成就定义了当时的技术水平,而且通常会在下一次比赛时被其他团队超越。社会科学领域的预测任务依靠的并不是技术的迅速发展,而是使用比赛中最准确的预测作为衡量结果可预测性的指标。这种做法是合理的。换句话说,无法预测的部分就是客观无知的残留量。
这一挑战引起了诸多研究人员的兴趣,报名的参赛者来自各个国家。最终的报告选取了160个高质量研究团队的结果。入选的参赛者大多自称数据科学家,并且在预测时使用了机器学习算法。
在比赛的第一阶段,参赛团队可以使用一半样本对应的所有数据,其中也包括6种结果。他们会用这一“训练数据”训练预测算法,然后将算法应用于另一半样本数据。研究人员使用均方误差来衡量预测准确性,即每个案例的预测误差是实际结果与算法预测结果之差的平方。
最终获胜的模型准确度如何呢?基于海量数据集训练得到的复杂机器学习算法确实比简单线性模型的预测好,并且超过人类的判断。但是人工智能模型不比非常简单的模型好多少,预测的准确性仍然很低。在预测“流离失所”这一事件的概率时,最佳模型的相关系数仅为0.22(PC=57%),对其他事件的预测也获得了类似的结果。比如,对抚养人是否失业或是否接受工作培训的预测,以及对孩子在“毅基于“脆弱家庭”研究中收集的大量数据来预测6种结果,看谁预测得更准确。这种比赛在社会科学领域是一件新鲜事,在计算机科学领域却很常见。计算机科学领域经常会有组织请一些团队来参加比赛,完成诸如用机器翻译一段标准化的文字或从大量照片中识别动物图片的任务。获胜团队在比赛中所取得的成就定义了当时的技术水平,而且通常会在下一次比赛时被其他团队超越。社会科学领域的预测任务依靠的并不是技术的迅速发展,而是使用比赛中最准确的预测作为衡量结果可预测性的指标。这种做法是合理的。换句话说,无法预测的部分就是客观无知的残留量。
这一挑战引起了诸多研究人员的兴趣,报名的参赛者来自各个国家。最终的报告选取了160个高质量研究团队的结果。入选的参赛者大多自称数据科学家,并且在预测时使用了机器学习算法。
在比赛的第一阶段,参赛团队可以使用一半样本对应的所有数据,其中也包括6种结果。他们会用这一“训练数据”训练预测算法,然后将算法应用于另一半样本数据。研究人员使用均方误差来衡量预测准确性,即每个案例的预测误差是实际结果与算法预测结果之差的平方。
最终获胜的模型准确度如何呢?基于海量数据集训练得到的复杂机器学习算法确实比简单线性模型的预测好,并且超过人类的判断。但是人工智能模型不比非常简单的模型好多少,预测的准确性仍然很低。在预测“流离失所”这一事件的概率时,最佳模型的相关系数仅为0.22(PC=57%),对其他事件的预测也获得了类似的结果。比如,对抚养人是否失业或是否接受工作培训的预测,以及对孩子在“毅力”这一维度上自我评分的预测,与实际结果的相关系数为0.17~0.24(PC为55%~58%)。
在这6种结果变量中,2个是整合变量,它们的可预测性会更高一些:对儿童的GPA进行预测,其相关系数为0.44(PC=65%);对儿童近12个月的物质贫困指数进行预测,其相关系数为0.48(PC=66%)。后一个指标是由11个问题的答案整合而来,包括“你曾经挨过饿吗”“你家的电话停机了吗”等。众所周知,整合指标一般比单一指标更具预测力,也更具可预测性。该项挑战的主要结论是:海量预测信息不足以预测人们生活中可能发生的单一事件,即使是整合变量,其预测力也非常有限。
这项研究中所报告的结果非常典型,社会科学家报告的大部分相关系数也都在这个范围内。一项社会心理学方面的回顾性研究涵盖了100多年来的25 000项研究,涉及800万名被试,该研究得出的结论是:“社会心理学效应所产生的相关系数(γ值)通常等于0.21。”在人体测量中常会出现更高的相关系数,比如我们之前提到的,成人身高与脚的尺码之间的相关系数为0.6,这种高相关性在社会科学领域很少见。对行为和认知科学的708项研究进行的一项回顾性研究发现,只有3%的研究报告的相关系数大于0.5。
如果你经常阅读那些“统计上显著”或“高度显著”的研究报告,那么如此低的相关系数可能会让你大吃一惊。统计学术语通常会误导读者,“显著”则是最具误导性的说法之一。当一项发现被描述为“显著”时,我们不应该下结论说这一结果的效应很强,它仅仅说明这项发现不大可能只是随机的结果。当样本量足够大时,相关性可力”这一维度上自我评分的预测,与实际结果的相关系数为0.17~0.24(PC为55%~58%)。
在这6种结果变量中,2个是整合变量,它们的可预测性会更高一些:对儿童的GPA进行预测,其相关系数为0.44(PC=65%);对儿童近12个月的物质贫困指数进行预测,其相关系数为0.48(PC=66%)。后一个指标是由11个问题的答案整合而来,包括“你曾经挨过饿吗”“你家的电话停机了吗”等。众所周知,整合指标一般比单一指标更具预测力,也更具可预测性。该项挑战的主要结论是:海量预测信息不足以预测人们生活中可能发生的单一事件,即使是整合变量,其预测力也非常有限。
这项研究中所报告的结果非常典型,社会科学家报告的大部分相关系数也都在这个范围内。一项社会心理学方面的回顾性研究涵盖了100多年来的25 000项研究,涉及800万名被试,该研究得出的结论是:“社会心理学效应所产生的相关系数(γ值)通常等于0.21。”在人体测量中常会出现更高的相关系数,比如我们之前提到的,成人身高与脚的尺码之间的相关系数为0.6,这种高相关性在社会科学领域很少见。对行为和认知科学的708项研究进行的一项回顾性研究发现,只有3%的研究报告的相关系数大于0.5。
如果你经常阅读那些“统计上显著”或“高度显著”的研究报告,那么如此低的相关系数可能会让你大吃一惊。统计学术语通常会误导读者,“显著”则是最具误导性的说法之一。当一项发现被描述为“显著”时,我们不应该下结论说这一结果的效应很强,它仅仅说明这项发现不大可能只是随机的结果。当样本量足够大时,相关性可能非常“显著”,但仍微不足道。
在关于这项挑战赛的研究中,对单一结果进行预测的有限性传达出一条令人不安的信息,那就是理解和预测之间存在差别。脆弱家庭的研究资料被认为是社会科学的宝库,确实如此,我们已经看到这些数据被广泛地应用于科学研究中,进行这些研究的学者们坚信,他们的工作将促进人们对脆弱家庭生活的理解。然而,这种促进与详尽地预测个人生活中可能发生的事件的能力无法相提并论。“脆弱家庭”挑战赛研究的发起者在论文摘要中郑重地告诫读者:“研究人员必须认识到,虽然他们了解脆弱家庭的生活轨迹,但每一项预测都不够准确。”
客观无知,理解和预测的上限
我们需要再次阐明这一悲观结论背后的逻辑。当“脆弱家庭”挑战赛的研究者们将“理解”等同于“预测”,或是将“预测的缺失”等同于“理解的缺失”时,他们所谓的理解就是具有特定含义的。然而,这个词还有其他的含义:当你说你理解某一数学概念或理解“爱是什么”时,你想说的可能不是你有预测能力这件事。
在社会科学研究以及大多数日常对话中,如果有人声称理解某事,他指的是理解导致该事件发生的原因。“脆弱家庭”研究中,社会科学家们收集并分析了数千个变量,现在他们想要找出观察到的结果的成因。如果医生了解病人生的是什么病,他们就会认为自己诊断出的病理就是所观察到的症状的成因。理解就是描述因果关系,而预能非常“显著”,但仍微不足道。
在关于这项挑战赛的研究中,对单一结果进行预测的有限性传达出一条令人不安的信息,那就是理解和预测之间存在差别。脆弱家庭的研究资料被认为是社会科学的宝库,确实如此,我们已经看到这些数据被广泛地应用于科学研究中,进行这些研究的学者们坚信,他们的工作将促进人们对脆弱家庭生活的理解。然而,这种促进与详尽地预测个人生活中可能发生的事件的能力无法相提并论。“脆弱家庭”挑战赛研究的发起者在论文摘要中郑重地告诫读者:“研究人员必须认识到,虽然他们了解脆弱家庭的生活轨迹,但每一项预测都不够准确。”
客观无知,理解和预测的上限
我们需要再次阐明这一悲观结论背后的逻辑。当“脆弱家庭”挑战赛的研究者们将“理解”等同于“预测”,或是将“预测的缺失”等同于“理解的缺失”时,他们所谓的理解就是具有特定含义的。然而,这个词还有其他的含义:当你说你理解某一数学概念或理解“爱是什么”时,你想说的可能不是你有预测能力这件事。
在社会科学研究以及大多数日常对话中,如果有人声称理解某事,他指的是理解导致该事件发生的原因。“脆弱家庭”研究中,社会科学家们收集并分析了数千个变量,现在他们想要找出观察到的结果的成因。如果医生了解病人生的是什么病,他们就会认为自己诊断出的病理就是所观察到的症状的成因。理解就是描述因果关系,而预测能力就是衡量这一因果关系是否成立的指标。相关系数这一被用于衡量预测准确性的指标,衡量的是有多少因果关系是我们可以解释的。
如果你接触过基础统计学,并熟知“相关性并不代表因果性”这一被反复提及的警告语的话,你可能不会对前一段的最后一句话感到惊讶。举个例子,请你想一想儿童鞋子的尺码和儿童数学能力之间的相关性:很显然,其中的一个变量与另一个变量没有因果性。这种相关性源于:鞋的尺码和数学能力都会随着儿童年龄的增长而增加。这个相关性是真实存在的,它支持这样的预测:如果知道一个孩子的脚比较大,那么你可以预测他比那些脚较小的孩子的数学能力更强,但你不应该从这种相关性中推导出因果性。
我们也要知道,尽管相关性并不代表因果性,因果性却意味着存在相关性,哪里有因果性,哪里就有相关性。如果你发现成年人的年龄与脚的尺码之间没有相关性,那么你可以放心大胆地得出结论:青春期过后,年龄的增长不会使脚变大,你应该寻找其他可能导致人们脚码差异的原因。
简而言之,存在因果性就意味着存在相关性。当存在因果性时,我们应该能做出预测,并且这一相关性(即预测的准确性)可以衡量我们究竟在多大程度上理解了这一因果性。普林斯顿大学研究人员的结论是:社会科学家对诸如“流离失所”这类单一事件的预测力的相关系数为0.22,这表明了他们对这些家庭的生活轨迹的理解程度。客观无知不仅为我们的预测力设定了上限,也限制了我们的理解力。测能力就是衡量这一因果关系是否成立的指标。相关系数这一被用于衡量预测准确性的指标,衡量的是有多少因果关系是我们可以解释的。
如果你接触过基础统计学,并熟知“相关性并不代表因果性”这一被反复提及的警告语的话,你可能不会对前一段的最后一句话感到惊讶。举个例子,请你想一想儿童鞋子的尺码和儿童数学能力之间的相关性:很显然,其中的一个变量与另一个变量没有因果性。这种相关性源于:鞋的尺码和数学能力都会随着儿童年龄的增长而增加。这个相关性是真实存在的,它支持这样的预测:如果知道一个孩子的脚比较大,那么你可以预测他比那些脚较小的孩子的数学能力更强,但你不应该从这种相关性中推导出因果性。
我们也要知道,尽管相关性并不代表因果性,因果性却意味着存在相关性,哪里有因果性,哪里就有相关性。如果你发现成年人的年龄与脚的尺码之间没有相关性,那么你可以放心大胆地得出结论:青春期过后,年龄的增长不会使脚变大,你应该寻找其他可能导致人们脚码差异的原因。
简而言之,存在因果性就意味着存在相关性。当存在因果性时,我们应该能做出预测,并且这一相关性(即预测的准确性)可以衡量我们究竟在多大程度上理解了这一因果性。普林斯顿大学研究人员的结论是:社会科学家对诸如“流离失所”这类单一事件的预测力的相关系数为0.22,这表明了他们对这些家庭的生活轨迹的理解程度。客观无知不仅为我们的预测力设定了上限,也限制了我们的理解力。那么,专业人士满怀信心地说理解自己所在的领域,这意味着什么?他们如何阐明所观察到的现象背后的原因,又是如何做出胸有成竹的预测的?为什么专业人士甚至所有人,似乎都会低估我们关于世界的客观无知?
因果思维,一旦发生就会被解释
如果在阅读本章的第一节时你就想知道“是什么原因导致了脆弱家庭中的孩子流离失所或其他一些结果”,那么你与研究人员的想法是一样的。你使用了统计思维(statistical thikig):你关注了一些总体变量,如脆弱家庭的总量等;你也关注了描述总体变量的统计指标,如平均值、方差、相关性等。也就是说,你并没有专注于个别的案例。
有一种思维模式会自发地出现在我们的脑海里,它就是因果思维(casual thikig)。因果思维会创造出故事,故事中特定的人、事、物之间会相互影响。要想体验因果思维,你可以将自己想象成一名社工,你追踪调查了很多贫困家庭。你刚刚听说其中一个家庭的人目前无家可归,比如琼斯一家。你对这一消息的反应取决于你对琼斯一家的了解有多少。事情可能是这样的:这个家庭的经济支柱洁西卡·琼斯(Jessica Joes)几个月前失业了,而且找不到工作,从那时起,她就只能付一部分房租,她多次向大楼管理员求情,甚至请你帮忙求情(虽然你出面了,但大楼管理员无动于衷)。在这种情况下,琼斯一家的遭遇虽然很可怜,但我们并不会感到意外。事实上,这就好像是一连串事件的必然结果一样,一场“难以避免”的悲剧终会发生。那么,专业人士满怀信心地说理解自己所在的领域,这意味着什么?他们如何阐明所观察到的现象背后的原因,又是如何做出胸有成竹的预测的?为什么专业人士甚至所有人,似乎都会低估我们关于世界的客观无知?
因果思维,一旦发生就会被解释
如果在阅读本章的第一节时你就想知道“是什么原因导致了脆弱家庭中的孩子流离失所或其他一些结果”,那么你与研究人员的想法是一样的。你使用了统计思维(statistical thikig):你关注了一些总体变量,如脆弱家庭的总量等;你也关注了描述总体变量的统计指标,如平均值、方差、相关性等。也就是说,你并没有专注于个别的案例。
有一种思维模式会自发地出现在我们的脑海里,它就是因果思维(casual thikig)。因果思维会创造出故事,故事中特定的人、事、物之间会相互影响。要想体验因果思维,你可以将自己想象成一名社工,你追踪调查了很多贫困家庭。你刚刚听说其中一个家庭的人目前无家可归,比如琼斯一家。你对这一消息的反应取决于你对琼斯一家的了解有多少。事情可能是这样的:这个家庭的经济支柱洁西卡·琼斯(Jessica Joes)几个月前失业了,而且找不到工作,从那时起,她就只能付一部分房租,她多次向大楼管理员求情,甚至请你帮忙求情(虽然你出面了,但大楼管理员无动于衷)。在这种情况下,琼斯一家的遭遇虽然很可怜,但我们并不会感到意外。事实上,这就好像是一连串事件的必然结果一样,一场“难以避免”的悲剧终会发生。
管理类 / 日期:2024-03-11
理解那个东西,但是我已经发现,他的信息距离和我越来越近了。因为他不再看《舟山晚报》,我也不再看《新民晚报》了,我们看的都是腾讯新闻App,看新闻头条,他也看我的朋友圈。所以信息高速一旦被打通了,一、二线和三、四线城市之间的认知壁垒也逐渐被打破了。要掌握70%~80%的都市消费,其实就是掌握两亿中产阶层。像分众这样的公司,之所以能够覆盖78%有家庭汽车的、80
管理类 / 日期:2024-03-11
实现资产最大限度的增值。一些合伙人可以通过“股权转让”等资产重组方式退出。二、退出如何结算当合伙人退出公司后,其所持的股权应该按照一定的形式退出。一方面对于继续在公司里做事的其他合伙人更公平;另一方面也便于公司的持续稳定发展。而合伙人退出之后,如何结算也是一个问题。一般采用三种方法:估值法、参考相关法律、另外约定。估值法,即当合伙人中途退出,退出时公司可以按
管理类 / 日期:2023-11-05
一番讨论下来,周总也很认同大家的看法,最终采取了先完成项目再进行宣传的工作方法。从案例来看,当周总和李洋一时间难以决出优胜答案时,正是李总和其他员工的积极参与才让局势变得更加明朗,及时优化了争论。这就是偶尔让更多人提供意见的好处。当然,让更多人参与讨论,并不意味着随便请其他员工表达想法。其中有很多技巧,具体如图4-4所示。图4-4 让更多人参与讨论的技巧(1
管理类 / 日期:2023-11-05
科勒说,“就在那个时候,我个人认为戴克已经赢得了合同。”此后,大家对英国独立电视台报价的具体细节进行了充实,同时接纳了另外5家俱乐部,分别为阿斯顿维拉足球俱乐部(简称阿斯顿维拉)、纽卡斯尔联、诺丁汉森林足球俱乐部(简称诺丁汉森林)、谢菲尔德星期三足球俱乐部(简称谢菲尔德星期三)和西汉姆联,但这5家新增的俱乐部得到的转播费将会略低。那天晚上商谈结束后,所有球队