正态分布到底是怎么回事?

正态分布也叫高斯分布,是大家最熟悉的概率分布。正态分布概率密度函数大家也都知道,长的很像钟,所以也叫钟型曲线。那有一个很有意思的问题就是为什么这条曲线长成这个样子,今天就给聊聊这个很有意思的话题。

其实正态分布的出现和最小二乘法类似来自对误差的计算,当然那个时代很多概率统计公式大都来自于对误差的计算。什么意思呢?就是说比如我对一个物体长度进行测量,我假设这个物体的长度为1米–事实上我不知道,当然我也不可能知道,这个是永远都不能测量准确的大家应该都知道–我在多次测量时,会出现以下结果,如:1.01,1.02,1.15,0.99,0.85等等数据。总之在我测量时可能会出现比1大的数据,也会出现比1小的数据。这个我觉得大家都能理解,有误差,有大有小才对。而且误差越小则出现的概率越大,或者说误差小的数值出现的可能性要比误差大的数值出现的可能性要大。举个例子,比如你测量出来1.05这个值的概率肯定比你测量出10米(这个值有些夸张)的概率要大,而且误差在真实值两侧是对称的。这个对称的意思是说,你可以测量出一个1.01(比1大0.01)的值当然你就可以测出一个0.99(比1小0.01);1.01和0.99出现概率是一样的。也就是说这个误差在真实值两侧有对称性。到现在为止出现了两个原则:1,误差越大其出现的概率越小;2,误差在真实值两侧对称;接下来就是第三点了,这个真实值到底是什么。或是这个真实值到底该怎么求呢。高斯给出了一个方法,就是求平均值。这个方法到底对还是不对?其实在今天看来好像是没有什么问题,但是在当时提出时,可能就是一片嘘声–wtf。那高斯到底是如何来思考这个问题的呢?或是说高斯是怎么自圆其说的呢?

其实高斯给出的说法是,我想知道我测量的误差到底是怎么样的,或是我测量的误差的概率到底是呈现一个怎么样的形态,我先假设这个误差概率分布为f(x)(这也是概率密度函数,因为连续随机变量单个值的概率为0,这里面讨论的是连续随机变量),假设真实值是θ,而测量值为X1,X2,X3…..Xn,那么我假设有这个函数

L(θ;X1,X2,X3…..Xn)=f(θ-X1)*f(θ-X2)*f(θ-X3)…f(θ-Xn),我想找到一个θ,使得这个函数L的值最大。当L达到最大后的θ就可以作为我们想要的真实值的估计了(或是就作为真实值了)。那么为什么要使得L的值最大呢?上文已经提到了,你测量时,不管真实值是多少,你距离真实值越近这个值出现的概率就越大。所以你如果每一个值都靠近真实值,则测量的越准确。可是问题依然解决不了,f(x)是什么呢?θ也不知道。尽管让L取最大值没有问题,可是问题依然解决不了。高斯这个时候就将平均值(X1+X2+X3…..+Xn/n)作为θ的真实值,然后来求f(x).最终得出的结论是f(x)是正态分布也就是那个钟型曲线。能服众否?其实勉强可以服众,因为平均值自古以来就是一个很好的求真实值的方式,这样正态分布就出来了

但是终究有很多让人觉得别扭的地方:就是算数平均是个好的方式,所以误差要服从正态分布;而用了这个正太分布以后你在误差最小可以推导出最小二乘法很好用(平均值就是最小二乘法一个特殊形式)。结果怎么说都是正确的。不过后来拉普拉斯用了他的中心极限定理给这个正太分布进一步的加注了一下。在这里要先说一下,拉普拉斯的中心极限定理出现的时间要比正态分布要早。

是不是可以这么理解一组数和他平均数之间呈现着这么一种关系,这种关系就是正态分布?

本文参考了:陈希孺数理统计简史

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注