本文主要梳理数理统计中的参数估计。这一章属于数理统计的核心内容,其研究目标可以概括为:
用收集到的样本数据去估计总体中未知的参数
例如,我们已知总体服从正态分布:
X∼N(μ,σ2)
但其中均值参数 μ 和方差参数 σ2 是未知的。我们通过在总体中进行随机抽样,获得一组样本数据:
X1,X2,…,Xn
随后通过对这些样本数据进行计算,推断和估计未知参数 μ 与 σ2 的取值。这就是参数估计。
1. 参数估计的两大分类#
根据估计结果的形式,参数估计可以分为两大类:
点估计与区间估计
| 估计类型 | 核心含义 | 典型简例 |
|---|
| 点估计 | 用一个具体的数值来估计未知参数 | 用样本均值 X 估计总体均值 μ |
| 区间估计 | 用一个包含未知参数的随机区间进行估计 | 估计总体均值满足 μ∈(a,b) |
简单总结:
点估计给出一个值,区间估计给出一个取值范围
2. 点估计的定义#
设总体的概率分布中含有未知参数 θ。我们构造一个样本的函数(即统计量):
θ^=θ^(X1,X2,…,Xn)用这个统计量作为 θ 的代表去进行推断。
- 估计量:统计量 θ^(X1,X2,…,Xn) 称为未知参数 θ 的估计量,它是随机变量。
- 估计值:抽样后代入具体观测值所得到的实数值 θ^(x1,x2,…,xn) 称为未知参数 θ 的估计值,它是一个确定常数。
例如,样本均值:
X=n1i=1∑nXi是总体均值 μ 的一个估计量。
当我们抽样后得到具体的数字,计算出来的算术平均数:
x=n1i=1∑nxi则是总体均值 μ 的一个估计值。
3. 常用点估计方法#
在参数估计中,最常用的两种点估计构造方法是:
矩估计法与最大似然估计法
4. 矩估计法#
4.1 核心思想#
矩估计法的基本立足点为:
用样本矩去替代对应的总体矩我们用样本原点矩直接替换总体原点矩:
- 总体的一阶原点矩(即期望)为:E(X);
- 样本的一阶原点矩(即均值)为:X。
求解单未知参数时,常令二者相等:
E(X)=X然后解出未知参数的表达式即可。
如果总体包含两个未知参数,则需使用两个矩:
- 总体的一阶与二阶原点矩分别为:E(X) 和 E(X2);
- 样本的一阶与二阶原点矩分别为:n1i=1∑nXi 和 n1i=1∑nXi2。
4.2 单个参数的矩估计示例#
设总体服从泊松分布:
X∼P(λ)已知泊松分布的数学期望为:
E(X)=λ样本均值为 X。令总体一阶矩等于样本一阶矩,即:
λ=X从而解得参数 λ 的矩估计量为:
λ^=X
4.3 两个参数的矩估计示例#
设总体服从正态分布,其中两个参数 μ 和 σ2 均未知:
X∼N(μ,σ2)总体的前二阶原点矩为:
E(X)=μE(X2)=D(X)+[E(X)]2=σ2+μ2样本的前二阶原点矩为:
A1=n1i=1∑nXi=XA2=n1i=1∑nXi2令总体原点矩等于样本原点矩建立方程组:
μ=Xσ2+μ2=n1i=1∑nXi2解该方程组,得出估计量:
μ^=Xσ^2=n1i=1∑nXi2−X2=n1i=1∑n(Xi−X)2因此,正态总体方差参数的矩估计量为:
σ^2=n1i=1∑n(Xi−X)2需要特别注意的是,矩估计中方差项的分母是 n,而不是无偏样本方差中的 n−1。
5. 最大似然估计法#
5.1 核心思想#
最大似然估计法的基本立足点为:
寻找能使当前已发生样本观测值概率达到最大值的参数作为估计值例如抛一枚硬币 10 次,若实验结果为出现了 8 次正面朝上。我们直觉上会判定该硬币正面朝上的概率更接近 p=0.8,而不是普通的 p=0.5。这是因为在 p=0.8 的设定下,发生“8次正面朝上”这一实验结果的概率最大。这就是最大似然的核心思想。
5.2 似然函数#
设获得的独立同分布样本观测值为 x1,x2,…,xn,未知参数为 θ。
- 离散型总体:若总体分布律为 P(X=x)=p(x;θ),则样本联合概率为:
L(θ)=i=1∏np(xi;θ)
- 连续型总体:若总体概率密度函数为 f(x;θ),则似然函数定义为:
L(θ)=i=1∏nf(xi;θ)最大似然估计的目标就是求解使似然函数 L(θ) 取得最大值的未知参数:
θ^=argθmaxL(θ)
5.3 对数似然的引入#
由于似然函数 L(θ) 通常是多个乘积项的乘式,直接求导数寻找极值点计算量极大。
而对数函数是单调递增的,所以 L(θ) 的极值点与对数似然函数 lnL(θ) 的极值点完全重合:
lnL(θ)=i=1∑nlnf(xi;θ)取对数后,原本的乘积式转换成了求和式,便于求导数计算。
最大似然估计的通用计算步骤为:
- 写出似然函数表达式 L(θ);
- 取对数得到对数似然函数 lnL(θ);
- 对对数似然函数关于参数求导数(或偏导数);
- 令导数为 0 建立一阶极值方程;
- 解方程求得最大似然估计量。
6. 最大似然估计例题一:伯努利分布#
设总体服从两点分布,其中 p 为未知参数:
P(X=1)=p,P(X=0)=1−p抽取随机样本为 X1,X2,…,Xn。求参数 p 的最大似然估计量。
【解析】
每一个样本 Xi 的概率质量可以统一表示为 P(X=Xi)=pXi(1−p)1−Xi。
写出似然函数:
L(p)=i=1∏npXi(1−p)1−Xi=p∑Xi(1−p)n−∑Xi取对数得到对数似然函数:
lnL(p)=(i=1∑nXi)lnp+(n−i=1∑nXi)ln(1−p)对参数 p 求导:
dpdlnL(p)=p∑Xi−1−pn−∑Xi令导数等于 0,建立极值方程:
p∑Xi=1−pn−∑Xi⟹(1−p)∑Xi=p(n−∑Xi)解该方程得出 p 的最大似然估计量:
p^=n1i=1∑nXi=X它恰好等于样本中发生事件的比例。
7. 最大似然估计例题二:正态分布#
设总体服从正态分布,其中均值 μ 与方差 σ2 均未知:
X∼N(μ,σ2)样本观测值为 X1,X2,…,Xn。
正态分布密度函数为:
f(x;μ,σ2)=2πσ1e−2σ2(x−μ)2写出似然函数:
L(μ,σ2)=i=1∏n2πσ1e−2σ2(Xi−μ)2=(2πσ2)−2ne−2σ21∑(Xi−μ)2取对数:
lnL(μ,σ2)=−2nln(2π)−2nln(σ2)−2σ21i=1∑n(Xi−μ)2分别对 μ 和 σ2 求偏导数并令其等于 0:
∂μ∂lnL=σ21i=1∑n(Xi−μ)=0⟹μ^=X∂(σ2)∂lnL=−2σ2n+2(σ2)21i=1∑n(Xi−μ)2=0⟹σ^2=n1i=1∑n(Xi−μ^)2代入求出的均值估计量,得到最大似然估计结果:
μ^=Xσ^2=n1i=1∑n(Xi−X)2需要指出的是,最大似然估计推导出的方差分母是 n,而不是 n−1。
因为无偏样本方差定义为:
S2=n−11i=1∑n(Xi−X)2这说明:
正态总体方差的最大似然估计量不是无偏估计量
8. 矩估计与最大似然估计的对比#
| 估计方法 | 核心思想 | 方法特点 |
|---|
| 矩估计 | 用样本均值、样本平方均值等直接替代总体的对应矩 | 计算相对简单直接,不需要明确知晓总体具体的概率分布类型 |
| 最大似然估计 | 寻找使已发生观测结果的联合发生概率达到最大值的参数 | 依赖于总体概率密度的具体形式,推导出的估计量通常具备更为优良的数理统计性质 |
简明记忆:
矩估计关注统计特征对齐,最大似然估计关注最合理解释样本数据
9. 估计量的评价标准#
对于同一个未知参数,采用不同的估计方法可能会构造出不同的估计量。我们需要通过以下三个标准来评价估计量的好坏:
无偏性与有效性与相合性
9.1 无偏性#
若估计量 θ^ 的数学期望等于未知参数的真实值,则称其为无偏估计量:
E(θ^)=θ这意味着在大量的重复抽样估算中,该估计量在平均水平上没有系统性偏差。
- 样本均值 X 是总体均值 μ 的无偏估计量,因为 E(X)=μ。
- 无偏样本方差 S2 是总体方差 σ2 的无偏估计量,因为满足 E(S2)=σ2。
- 而前面求出的矩估计与最大似然估计中的方差估计量 σ^2 的期望为:
E(σ^2)=nn−1σ2=σ2因此 σ^2 是有偏估计。
9.2 有效性#
如果两个估计量 θ^1 和 θ^2 都是参数 θ 的无偏估计量,我们通过比较它们的方差来评估其精确度:
若满足:
D(θ^1)<D(θ^2)则称估计量 θ^1 比 θ^2 更有效。
简明记忆:
在同样无偏的前提下,谁的方差小波动小,谁就更有效
9.3 相合性#
若当样本容量 n→∞ 时,估计量 θ^ 依概率收敛于未知参数的真实值 θ,则称其为相合估计量(也叫一致估计量):
θ^Pθ直观理解是:样本量越大,估算值就越接近真实参数。根据辛钦大数定律,样本均值 X 是总体均值 μ 的相合估计量。
10. 区间估计的基本概念#
点估计仅给出一个具体数值,但在实际中,单点估值刚好等于真实参数的概率几乎为 0。
为了说明估计的精确度与可靠性,我们需要构造一个以高概率包含真实参数的区间,这就是区间估计。
10.1 置信区间与置信水平#
如果对于给定的显著性水平 α(0<α<1),能够构造两个统计量 θ1 和 θ2,使得总体未知参数 θ 满足:
P(θ1<θ<θ2)=1−α则称随机区间 (θ1,θ2) 是未知参数 θ 的置信度为 1−α 的置信区间。
- 这里的 1−α 称为置信水平(置信度),常见的取值有 0.95 或 0.99;
- 统计量 θ1 与 θ2 分别称为置信区间的置信下限与置信上限。
10.2 置信区间的正确理解#
例如,我们通过估算得出均值参数置信区间为 μ∈(98.5,101.2),其置信水平为 95%。
需要特别指出,不能解释为“参数 μ 有 95% 的概率落在此区间内”。因为在数理统计中,未知参数 μ 是一个固定的常数,它并不具有随机性;而我们求出来的区间端点 (θ1,θ2) 才是包含样本数据的随机变量。
正确的解释是:如果按照同样的方法重复抽样 100 次,可以构造出 100 个不同的置信区间,其中大约有 95 个区间能够包含真正的未知参数。
简明规律:
在样本量一定时,置信水平越高,置信区间跨度越宽
11. 单个正态总体均值 μ 的区间估计#
这是参数估计章节中最核心的计算部分。
情况一:总体方差 σ2 已知#
设总体服从 X∼N(μ,σ2),其中方差 σ2 已知。
根据样本均值性质有 X∼N(μ,nσ2),进行标准化处理:
σ/nX−μ∼N(0,1)因此,在置信水平为 1−α 下,总体均值 μ 的置信区间公式为:
(X−zα/2nσ,X+zα/2nσ)其中 zα/2 是标准正态分布的双侧分位数。对于 95% 的置信水平,对应 z0.025=1.96。
情况二:总体方差 σ2 未知#
设总体服从 X∼N(μ,σ2),其中方差 σ2 未知。
因为方差未知,我们使用无偏样本标准差 S 替换未知的总体标准差 σ,此时标准化后的变量不再服从正态分布,而是服从学生分布(即 t 分布):
S/nX−μ∼t(n−1)因此,在置信水平为 1−α 下,总体均值 μ 的置信区间公式为:
(X−tα/2(n−1)nS,X+tα/2(n−1)nS)其中 tα/2(n−1) 是自由度为 n−1 的 t 分布的双侧分位数。
区间估计工具选择判断#
对于正态总体均值的区间估计,选择检验分布的依据为:
| 总体方差状态 | 适用分布类型 |
|---|
| 总体方差 σ2 已知 | 标准正态分布 Z 分布 |
| 总体方差 σ2 未知 | t 分布 |
简明记忆:
方差已知用 Z,方差未知用 t
12. 单个正态总体方差 σ2 的区间估计#
设总体服从正态分布 X∼N(μ,σ2),其参数均未知。
根据数理统计的基本定理,样本方差满足卡方分布性质:
σ2(n−1)S2∼χ2(n−1)因此,在置信度为 1−α 下,总体方差 σ2 的置信区间公式为:
(χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2)
- 注意:由于卡方分布概率密度并不对称,此区间是不对称的,且分母上较小的值 χ1−α/22(n−1) 作为分母排在右侧上限位置。
若需要求标准差 σ 的置信区间,对区间两端点开平方根即可:
(χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2)
13. 单个总体比例 p 的区间估计#
设总体某特征出现的概率(如次品率、合格率)为 p。进行了 n 次独立重复试验,样本比例为 p^=nX。
当样本量 n 较大时,根据中心极限定理,样本比例近似服从正态分布:
p^≈N(p,np(1−p))我们在计算方差时使用样本比例 p^ 代替未知参数 p,得出其近似的 1−α 置信区间公式:
(p^−zα/2np^(1−p^),p^+zα/2np^(1−p^))
14. 两个独立正态总体均值差 μ1−μ2 的区间估计#
设有两个独立的总体 X∼N(μ1,σ12) 和 Y∼N(μ2,σ22)。样本均值分别为 X 和 Y。
情况一:两个总体方差已知#
当总体方差 σ12 和 σ22 均已知时,均值差的 1−α 置信区间公式为:
(X−Y)−zα/2n1σ12+n2σ22,(X−Y)+zα/2n1σ12+n2σ22
情况二:两个总体方差未知但相等#
若两总体方差未知,但根据经验可以确定它们相等,即 σ12=σ22=σ2。
我们首先计算两个样本的联合样本方差(即合并样本方差) Sw2:
Sw2=n1+n2−2(n1−1)S12+(n2−1)S22在此条件下,均值差的置信区间采用 t 分布:
((X−Y)−tα/2(n1+n2−2)Swn11+n21,(X−Y)+tα/2(n1+n2−2)Swn11+n21)
15. 两个独立正态总体方差比 σ22σ12 的区间估计#
对于方差比值的估计,需要构造服从 F 分布的统计量:
S22/σ22S12/σ12∼F(n1−1,n2−1)由此推导出总体方差比值 σ22σ12 的 1−α 置信区间为:
(S22S12Fα/2(n1−1,n2−1)1,S22S12F1−α/2(n1−1,n2−1)1)利用临界值倒数关系 F1−α/2(d1,d2)=Fα/2(d2,d1)1,上式也可以改写。
16. 参数估计常见考查题型#
题型一:求参数的矩估计量#
解题步骤:
- 算期望:写出总体原点矩表达式,如 E(X)、E(X2);
- 算样本矩:写出样本对应的一阶或二阶均值式子,如 X、n1∑Xi2;
- 对齐:令总体矩恒等于对应的样本矩;
- 解方程:解出未知参数的显式表达式。
题型二:求参数的最大似然估计量#
解题步骤:
- 乘积建立似然函数:根据离散分布律或连续密度函数求积式,列出 L(θ);
- 取对数:求得对数似然 lnL(θ);
- 求导数:对对数似然求未知参数的一阶导数(或偏导数方程组);
- 令导数为 0:建立极值点方程;
- 解未知数:解得估计量表达式。
题型三:检验估计量的无偏性#
解题步骤:
- 求出所构造估计量 θ^ 的数学期望 E(θ^);
- 判定其结果是否完全等于参数的真实值 θ。若恒等则为无偏估计,否则为有偏估计。
题型四:判断置信区间的适用公式#
解题步骤:
审清题目中是“均值区间”还是“方差区间”;针对均值区间,看清总体标准差 σ 在题干中是否已知,根据“已知用 Z,未知用 t”的规律选择对应公式。
17. 易错点总结#
易错点一:混淆估计量与估计值#
估计量(如 θ^(X1,…,Xn))是一个关于样本随机变量的函数,其本身是具有分布特性的随机变量。而估计值(如 θ^(x1,…,xn))是将具体的数值代入后计算得出的具体数值。
易错点二:正态总体方差估计的常数分母混淆#
需要理清:样本方差 S2 的分母是 n−1,它是总体方差的无偏估计;而通过矩估计与最大似然估计求出来的正态方差估计量,其分母是 n,它是有偏估计。
易错点三:区间估计中置信水平与区间宽度的关系#
在样本容量不变的情况下,如果想要提高置信水平(例如从 95% 提升到 99%),置信区间的跨度必然会变宽,因为更高的可靠度要求更大的覆盖范围。
易错点四:区间估计中对未知参数随机落入的错误表述#
置信区间是一个随机区间,其边界是随机变量。而未知参数是一个未知的恒定常数。所以应当表述为“区间包含该参数的概率为置信水平”,而不是“参数落入区间的概率”。
18. 本章核心公式表#
| 知识点内容 | 核心公式与计算式 |
|---|
| 矩估计法 | 总体原点矩等于对应的样本原点矩(E(Xk)=Ak) |
| 似然函数 (连续型) | L(θ)=i=1∏nf(xi;θ) |
| 对数似然求极值 | dθdlnL(θ)=0 |
| 无偏性定义 | E(θ^)=θ |
| 有效性比较 | 在无偏的前提下,方差较小者更有效(D(θ^1)<D(θ^2)) |
| 均值置信区间 (σ 已知) | (X−zα/2nσ,X+zα/2nσ) |
| 均值置信区间 (σ 未知) | (X−tα/2(n−1)nS,X+tα/2(n−1)nS) |
| 方差置信区间 (σ2 未知) | (χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2) |
| 总体比例置信区间 | (p^−zα/2np^(1−p^),p^+zα/2np^(1−p^)) |
19. 一句话掌握参数估计#
参数估计的完整推导链条为:
构造点估计量→利用三大性质评价→利用枢轴量法建立置信区间做题时的分析路径为:
- 确定估计模式:如果要求单一估值则用点估计,如果要求范围则用区间估计;
- 点估计求解:矩估计令一二阶原点矩对齐解方程;最大似然估计求导对数似然式并令导数为 0;
- 区间估计求解:根据正态分布均值估计的条件判断,方差已知套用标准正态分位数,方差未知套用 t 分位数;方差估计套用卡方分位数。