噪声在此案例的数据集中是一个相同的数字。(需要说明的是,噪声和偏差相等不是普遍的情况,但采用一个噪声和偏差相等的案例有助于读者理解它们各自的作用。)我们可以看到,大部分预测师都犯了过度乐观的错误,他们高估了公司可能获得的市场份额,大部分人的预测都落在了0误差线的右侧。事实上,结合该正态分布曲线的属性来看,大约84%的预测都高估了实际的市场份额。
面对上述结果,西姆金的领导自鸣得意地认为自己是对的,这些预测中存在着大量偏差!减少偏差固然是一件好事,但西姆金还是想知道,一年前的提议是明智的吗?就目前而言,再次提出减少噪声仍然明智吗?相比于减少偏差,减少噪声的意义是什么呢?
均方,衡量整体误差的精确规则
为了回答西姆金的问题,我们需要一个关于误差的评分规则,即对个体误差赋予不同权重并将其整合成测量总体误差的一个指标。幸运的是,这种工具确实存在,那就是“最小平方法”(method of least squares,也叫“最小二乘法”),它是由德国数学家高斯于1795年发明的。高斯是举世闻名的数学天才,生于1777年。他在十几岁时就做出了多项重大贡献。
高斯提出了一种方法,用于评估单个误差对总体误差的影响。他在测量总体误差时,使用的是“均方误差”(Mea Squared Error,MSE),即个体误差平方的平均值。
详细探讨高斯对总体误差的测量超出了本书的讨论范畴,而且他噪声在此案例的数据集中是一个相同的数字。(需要说明的是,噪声和偏差相等不是普遍的情况,但采用一个噪声和偏差相等的案例有助于读者理解它们各自的作用。)我们可以看到,大部分预测师都犯了过度乐观的错误,他们高估了公司可能获得的市场份额,大部分人的预测都落在了0误差线的右侧。事实上,结合该正态分布曲线的属性来看,大约84%的预测都高估了实际的市场份额。
面对上述结果,西姆金的领导自鸣得意地认为自己是对的,这些预测中存在着大量偏差!减少偏差固然是一件好事,但西姆金还是想知道,一年前的提议是明智的吗?就目前而言,再次提出减少噪声仍然明智吗?相比于减少偏差,减少噪声的意义是什么呢?
均方,衡量整体误差的精确规则
为了回答西姆金的问题,我们需要一个关于误差的评分规则,即对个体误差赋予不同权重并将其整合成测量总体误差的一个指标。幸运的是,这种工具确实存在,那就是“最小平方法”(method of least squares,也叫“最小二乘法”),它是由德国数学家高斯于1795年发明的。高斯是举世闻名的数学天才,生于1777年。他在十几岁时就做出了多项重大贡献。
高斯提出了一种方法,用于评估单个误差对总体误差的影响。他在测量总体误差时,使用的是“均方误差”(Mea Squared Error,MSE),即个体误差平方的平均值。
详细探讨高斯对总体误差的测量超出了本书的讨论范畴,而且他的解决方案并非直观易懂。为什么用均方呢?这是一个听起来有些奇怪的概念,但它建立在我们几乎所有的直觉上。
为了弄明白其中的原因,让我们来看一个看上去似乎完全不同但其实本质相同的问题。想象一下,你用一把尺子来测量一条线段的长度,要求精确到毫米,并且你可以测量5次。测量结果分别用图5-3中指向下方的三角箭头表示。
图5-3 对同一线段长度的5次测量结果
正如你看到的,5次测量结果都在971~980毫米这一范围内。那么,哪一个是对这条线段的最精确测量呢?一个可能是中位数,即两个最短的测量结果和两个最长的测量结果之间的那个测量结果,在本例中为973毫米。另一种可能是算术平均值,通常被称为平均值,在本例中为975毫米(图5-3中指向上方的三角箭头)。你可能倾向于认为平均值更为精确,你的直觉是对的。平均值包含更多信息,它受测量次数的影响,而中位数只受顺序的影响。
我们对实现最佳评估这一问题有很清晰的直觉,它与我们关注的对总体误差的测量关系紧密。它们实际上是同一个问题的两面,因为最佳评估能够使当前测量的总体误差最小化。因此,如果你凭直觉认为平均值是最佳测量结果,并且你的直觉没有错的话,那么用于测量总体误差的公式应该能够产生算术平均值,因为算术平均值的误差是的解决方案并非直观易懂。为什么用均方呢?这是一个听起来有些奇怪的概念,但它建立在我们几乎所有的直觉上。
为了弄明白其中的原因,让我们来看一个看上去似乎完全不同但其实本质相同的问题。想象一下,你用一把尺子来测量一条线段的长度,要求精确到毫米,并且你可以测量5次。测量结果分别用图5-3中指向下方的三角箭头表示。
图5-3 对同一线段长度的5次测量结果
正如你看到的,5次测量结果都在971~980毫米这一范围内。那么,哪一个是对这条线段的最精确测量呢?一个可能是中位数,即两个最短的测量结果和两个最长的测量结果之间的那个测量结果,在本例中为973毫米。另一种可能是算术平均值,通常被称为平均值,在本例中为975毫米(图5-3中指向上方的三角箭头)。你可能倾向于认为平均值更为精确,你的直觉是对的。平均值包含更多信息,它受测量次数的影响,而中位数只受顺序的影响。
我们对实现最佳评估这一问题有很清晰的直觉,它与我们关注的对总体误差的测量关系紧密。它们实际上是同一个问题的两面,因为最佳评估能够使当前测量的总体误差最小化。因此,如果你凭直觉认为平均值是最佳测量结果,并且你的直觉没有错的话,那么用于测量总体误差的公式应该能够产生算术平均值,因为算术平均值的误差是最小的。
均方误差就具有这样的特征,它是唯一能够对总体误差进行测量的概念。在图5-4中,我们假定线段的真实长度有10个可能的整数值,进而计算5次测量的均方误差。例如,如果真实值是971毫米,那么5次测量的误差就分别是0、1、2、8和9。这些误差的平方之和为150,均方为30。这是一个很大的数值,表明一些测量值离真实值很远。你会看到,当测量值接近975(平均值)时,均方误差会下降。随着测量值远离平均值,均方误差又会逐渐增加。可见,平均值是最佳评估结果,因为在这种情况下总体误差最小。
图5-4 10个可能的真实值对应的均方误差
你还会发现,当你的评估值远离平均值时,总体误差会迅速增加。例如,当你的评估值仅仅增加3毫米,如从976变化到979,均方误差就会翻倍。这是均方误差的关键特征:相比于小的误差,平方给大的误差赋予了更大的权重。最小的。
均方误差就具有这样的特征,它是唯一能够对总体误差进行测量的概念。在图5-4中,我们假定线段的真实长度有10个可能的整数值,进而计算5次测量的均方误差。例如,如果真实值是971毫米,那么5次测量的误差就分别是0、1、2、8和9。这些误差的平方之和为150,均方为30。这是一个很大的数值,表明一些测量值离真实值很远。你会看到,当测量值接近975(平均值)时,均方误差会下降。随着测量值远离平均值,均方误差又会逐渐增加。可见,平均值是最佳评估结果,因为在这种情况下总体误差最小。
图5-4 10个可能的真实值对应的均方误差
你还会发现,当你的评估值远离平均值时,总体误差会迅速增加。例如,当你的评估值仅仅增加3毫米,如从976变化到979,均方误差就会翻倍。这是均方误差的关键特征:相比于小的误差,平方给大的误差赋予了更大的权重。现在你应该明白了为什么高斯用于测量总体误差的公式被称为均方误差计算公式,以及这种评估方法为什么被称为最小平方法。对误差进行平方是其核心思想,其他任何公式都无法与我们的直觉——平均数是最佳评估值如此契合。
高斯的方法很快得到其他数学家的认可。作为其众多伟大成就之一,高斯用他的均方误差方法及其他数学创新解决了一大难题——重新发现谷神星(Ceres)。在此之前,这颗小行星只在1801年被短暂地追踪到,之后便消失于太阳眩光中。高斯对这一问题的解决方案优于当时欧洲最好的天文学家。这些天文学家一直想方设法估算谷神星的轨道,然而他们测量望远镜误差的方法是错误的,这颗行星根本没有在他们预测的任何地点附近出现。高斯用最小平方法重新进行了计算,当天文学家用望远镜对准高斯所预测的地点时,他们发现了谷神星!
不同领域的科学家很快就开始普遍采用最小平方法来评估误差。两个多世纪过去了,当想要达到准确测量的目标时,最小平方法仍然是评估误差的标准方法。用平方来赋予误差权重是统计学的核心。在绝大部分科学领域的应用中,均方误差方法处于绝对优势地位。正如我们将看到的,这一方法具有极高的应用价值。
单次测量中的误差
=
偏差现在你应该明白了为什么高斯用于测量总体误差的公式被称为均方误差计算公式,以及这种评估方法为什么被称为最小平方法。对误差进行平方是其核心思想,其他任何公式都无法与我们的直觉——平均数是最佳评估值如此契合。
高斯的方法很快得到其他数学家的认可。作为其众多伟大成就之一,高斯用他的均方误差方法及其他数学创新解决了一大难题——重新发现谷神星(Ceres)。在此之前,这颗小行星只在1801年被短暂地追踪到,之后便消失于太阳眩光中。高斯对这一问题的解决方案优于当时欧洲最好的天文学家。这些天文学家一直想方设法估算谷神星的轨道,然而他们测量望远镜误差的方法是错误的,这颗行星根本没有在他们预测的任何地点附近出现。高斯用最小平方法重新进行了计算,当天文学家用望远镜对准高斯所预测的地点时,他们发现了谷神星!
不同领域的科学家很快就开始普遍采用最小平方法来评估误差。两个多世纪过去了,当想要达到准确测量的目标时,最小平方法仍然是评估误差的标准方法。用平方来赋予误差权重是统计学的核心。在绝大部分科学领域的应用中,均方误差方法处于绝对优势地位。正如我们将看到的,这一方法具有极高的应用价值。
单次测量中的误差
=
偏差+
噪声误差
Error i a sigle measuremet
=
Bias
+
Noisy Error
误差方程:无论偏差大小如何,减少噪声都有益处
偏差和噪声在误差中的作用很容易概括为两个表达式,我们将其称为误差方程。第一个误差方程将单次测量中的误差分解为你现在熟悉的两个部分:偏差(平均误差)和残留的“噪声误差”。
如果误差比偏差大,那么噪声误差是正的,反之则为负。噪声误差的平均数为0。这个误差方程并未提供什么新的信息。
第二个误差方程是对均方误差,即我们之前介绍的对总体误差测量的分解。均方误差可以简单表示为偏差和噪声的平方和。(回想一下,噪声是测量的标准差,它与噪声误差的标准差相同。)
下面的方程(两个平方之和)可能会让你想起一个学生时代常用+
噪声误差
Error i a sigle measuremet
=
Bias
+
Noisy Error
误差方程:无论偏差大小如何,减少噪声都有益处
偏差和噪声在误差中的作用很容易概括为两个表达式,我们将其称为误差方程。第一个误差方程将单次测量中的误差分解为你现在熟悉的两个部分:偏差(平均误差)和残留的“噪声误差”。
如果误差比偏差大,那么噪声误差是正的,反之则为负。噪声误差的平均数为0。这个误差方程并未提供什么新的信息。
第二个误差方程是对均方误差,即我们之前介绍的对总体误差测量的分解。均方误差可以简单表示为偏差和噪声的平方和。(回想一下,噪声是测量的标准差,它与噪声误差的标准差相同。)
下面的方程(两个平方之和)可能会让你想起一个学生时代常用
管理类 / 日期:2024-03-11
理解那个东西,但是我已经发现,他的信息距离和我越来越近了。因为他不再看《舟山晚报》,我也不再看《新民晚报》了,我们看的都是腾讯新闻App,看新闻头条,他也看我的朋友圈。所以信息高速一旦被打通了,一、二线和三、四线城市之间的认知壁垒也逐渐被打破了。要掌握70%~80%的都市消费,其实就是掌握两亿中产阶层。像分众这样的公司,之所以能够覆盖78%有家庭汽车的、80
管理类 / 日期:2024-03-11
实现资产最大限度的增值。一些合伙人可以通过“股权转让”等资产重组方式退出。二、退出如何结算当合伙人退出公司后,其所持的股权应该按照一定的形式退出。一方面对于继续在公司里做事的其他合伙人更公平;另一方面也便于公司的持续稳定发展。而合伙人退出之后,如何结算也是一个问题。一般采用三种方法:估值法、参考相关法律、另外约定。估值法,即当合伙人中途退出,退出时公司可以按
管理类 / 日期:2022-06-05
的自主权,建立体现“问责制”的信息和测量系统。这个过程正式脱离了等级制组织和公共职能法规的法定机制。改变是在没有结构改革和公共职能法规改革的情况下经由渐进策略实现的,与凯瑟琳·瑟伦所描述调任机制和增添机制相对应。调任机制体现了财政改革者对由《财政法组织法》建立的预算框架的运用。起初,确立目标和衡量绩效的手段旨在为议会服务,并使议会能对行政机构进行更好的“外部
管理类 / 日期:2022-06-05
员工怕你,就算好领导吗一位学员问我:“老师,我想成为一个好领导,是不是应该让员工怕我?”这也是很多的企业家、老板、管理者感兴趣的问题,我没有直接回答他,而是引用了老子在《道德经》里的一段话,做了一个描述。老子说:“太上,不知有之;其次,亲而誉之;其次,畏之;其次,侮之。”这段话翻译成白话文的意思是:最好的统治者,人民并不知道他的存在;其次的统治者,人民亲近并