本文主要梳理概率论中的大数定律与中心极限定理。中心极限定理说明了大量独立随机变量相加后,在适当标准化之后会近似服从正态分布,这是现实世界中许多随机现象呈现正态分布的根本原因。
1. 中心极限定理#
中心极限定理是概率论中最重要的定理之一,它说明:
大量独立随机变量相加后,在适当标准化之后,近似服从正态分布。
这就是为什么在现实世界中,很多随机现象(如考试成绩、物理测量误差、成年人的身高、零件加工尺寸的误差等)都会呈现出正态分布的特征。
1.1 从一个问题开始理解#
假设我们从总体中连续抽取多个随机变量:
X1,X2,…,Xn它们相互独立,且服从相同的分布。
每个随机变量都有相同的期望值与方差:
E(Xi)=μD(Xi)=σ2现在考虑这 n 个独立随机变量的总和:
Sn=X1+X2+⋯+Xn根据期望值的性质,总和的平均水平为:
E(Sn)=nμ因为它们相互独立,总和的方差等于各方差之和:
D(Sn)=nσ2其标准差为:
D(Sn)=nσ如果我们将总和 Sn 进行标准化处理:
nσSn−nμ中心极限定理告诉我们,当样本量 n 足够大时:
nσSn−nμ≈N(0,1)随着 n 的增大,该标准化的随机变量会越来越接近标准正态分布。
1.2 独立同分布中心极限定理#
若随机变量序列 X1,X2,…,Xn 独立同分布,且其期望 E(Xi)=μ 与方差 D(Xi)=σ2>0 均存在。
则当样本容量 n 足够大时,它们的规范和满足:
nσX1+X2+⋯+Xn−nμ∼N(0,1)严格来说,当 n→∞ 时,其累积分布函数在实数域上的每个点都收敛于标准正态分布的分布函数。
1.3 用样本均值表示#
令样本均值为:
X=nX1+X2+⋯+Xn由于 Sn=nX,我们将此代入前面的标准化公式,中心极限定理也可以写为:
σ/nX−μ∼N(0,1)这意味着样本均值 X 满足:
X≈N(μ,nσ2)也就是说,当样本容量 n 较大时,无论总体服从何种分布,样本均值 X 均近似服从正态分布,其期望为总体均值 μ,方差为 nσ2,标准差(又称为标准误差)为 nσ。
1.4 中心极限定理的直观物理含义#
单个随机变量可能并不服从正态分布,但大量独立随机变量的叠加(或平均值)在整体上会表现出正态分布的规律。
例如:
- 掷一次骰子得到的点数呈均匀的离散分布;
- 但如果同时投掷很多次骰子,所得的点数总和或平均值就会呈现明显的钟形正态分布;
- 大量人群考试成绩的平均分、多项微小误差叠加后的累积误差均是此定理的现实体现。
1.5 棣莫弗-拉普拉斯中心极限定理#
此定理是二项分布的正态近似情况。
设随机变量服从二项分布:
X∼B(n,p)其表示在 n 次独立重复的伯努利试验中成功的次数。其期望与方差分别为:
E(X)=np,D(X)=np(1−p)当试验次数 n 较大时:
np(1−p)X−np≈N(0,1)即二项分布可以近似为正态分布:
X≈N(np,np(1−p))典型计算示例#
假设某投篮运动员的命中率为 0.6。现独立投篮 100 次,令随机变量 X 表示命中次数,则 X∼B(100,0.6)。
可以求得:
E(X)=100×0.6=60D(X)=100×0.6×0.4=24因此,命中次数可以近似看作正态分布:
X≈N(60,24)若要计算命中次数不超过 65 次的概率 P(X≤65),可通过标准化转化为标准正态分布进行求解:
P(X≤65)≈P(24X−60≤2465−60)=Φ(245)
1.6 连续性校正#
因为二项分布属于离散型分布,而正态分布是连续型分布。在用连续型的正态分布去近似离散型的二项分布时,为了减小近似带来的误差,通常需要进行连续性校正。
例如,计算 P(X≤65) 时,我们常将其校正为:
P(X<65.5)从而有:
P(X≤65)≈P(Z≤np(1−p)65.5−np)同理,对于区间概率的校正:
P(a≤X≤b)≈P(a−0.5<X<b+0.5)
1.7 中心极限定理与大数定律的区别#
这两大定律虽然都研究大量随机变量的极限行为,但关注的侧重点完全不同:
| 比较维度 | 大数定律 | 中心极限定理 |
|---|
| 研究对象 | 样本均值 X 的收敛性 | 标准化后的样本均值 X 的分布形态 |
| 核心物理含义 | 说明样本均值 X 随着 n 的增大趋近于总体期望 μ | 说明样本均值 X 与 μ 之间的偏差(误差)服从正态分布 |
| 核心关键词 | 均值的稳定性(收敛于常数) | 误差的正态近似(形态收敛于钟形) |
| 数学表达形式 | XPμ | σ/nX−μdN(0,1) |
简明记忆:
大数定律说明平均值会稳定趋于期望,中心极限定理说明平均值的误差波动服从正态分布
1.8 中心极限定理在数理统计中的常见用途#
- 二项分布的正态近似:当 n 较大时,将 B(n,p) 近似为正态分布计算;
- 大样本下的均值估计:无论总体分布如何,只要样本量 n≥30,均可以使用正态分布性质来推导样本均值 X 的概率特征;
- 统计推断理论基础:在参数估计(置信区间)与假设检验中,许多大样本检验方法(如比例检验、均值差检验)的构建都完全依赖于中心极限定理。
2. 本章核心公式速查表#
| 核心结论名称 | 对应数学公式表达式 |
|---|
| 独立同分布中心极限定理 | nσSn−nμdN(0,1) |
| 样本均值正态近似 | σ/nX−μ≈N(0,1) |
| 二项分布正态近似 | np(1−p)X−np≈N(0,1) |
3. 本章学习主线#
关于中心极限定理的学习逻辑,可以通过以下链路进行贯通掌握:
独立随机变量叠加⟹标准化处理⟹正态分布近似⟹解决实际概率计算题
4.框框老师#
