本文主要梳理数理统计中的基本概念。数理统计是一门利用样本数据推断总体概率分布规律的学科,它是参数估计和假设检验的核心基石。
1. 总体与个体#
- 总体:数理统计研究对象的全体,通常用一个随机变量 X 来表示其概率分布。
- 个体:组成总体的每一个研究对象。
例如:
- 研究某批零件的使用寿命,这批零件的寿命全体构成总体,单件零件的寿命为个体;
- 研究某学校学生的身高,该校所有学生的身高数据构成总体。
2. 样本与样本容量#
从总体中随机抽取一部分个体,将其测量得到的数据组合称为样本。
设随机抽取了 n 个个体,其对应的测量结果为:
X1,X2,…,Xn这组随机变量即为样本,其中个体的个数 n 称为样本容量。
3. 简单随机样本#
若抽取的样本 X1,X2,…,Xn 满足以下两个核心条件,则称为简单随机样本:
- 同分布性:每个 Xi 与总体 X 具有完全相同的概率分布;
- 独立性:各随机变量之间相互独立。
即样本变量之间是独立同分布的,常记作:
X1,X2,…,Xn∼i.i.d.F其中 F 为总体的概率分布函数。
4. 样本观测值#
- 随机样本 X1,X2,…,Xn 在抽样之前是随机变量;
- 抽样实施之后,我们获得了具体的一组实数值 x1,x2,…,xn,这组数值称为样本观测值。
例如,随机测量了 5 位学生的身高,获得数据:[168, 172, 165, 180, 175],这就是一组具体的样本观测值。在公式推导中,大写字母 Xi 代表随机变量,小写字母 xi 代表具体的观测值。
5. 统计量#
若一个关于样本的函数不包含任何未知的总体参数,则称该函数为统计量。
设 T=T(X1,X2,…,Xn) 是关于样本的函数。若 T 中不含有任何未知参数,则 T 是一个统计量。统计量本身也是一个随机变量,其在抽样后代入观测值可计算出一个具体的实数值。
常见的统计量包括:样本均值、样本方差、样本标准差、样本最大/最小值以及样本中位数等。
6. 样本均值#
样本均值定义为:
X=n1i=1∑nXi其具体的观测值对应为:
x=n1i=1∑nxi样本均值常用于作为总体均值 μ=E(X) 的估计。它满足以下两个重要数学性质:
E(X)=μD(X)=nσ2这说明样本容量 n 越大,样本均值偏离总体均值的波动程度就越小。
7. 样本方差#
样本方差定义为:
S2=n−11i=1∑n(Xi−X)2其观测值对应为:
s2=n−11i=1∑n(xi−x)2需要特别注意,其计算公式中的分母是 n−1,而不是 n。这是因为在计算样本方差时使用样本均值 X 代替了未知的总体均值 μ,这导致样本数据中损失了一个自由度。如此设定能保证样本方差的期望等于总体方差:
E(S2)=σ2即保证了样本方差是总体方差的无偏估计量。
8. 样本标准差#
样本标准差定义为样本方差的算术平方根:
S=S2=n−11i=1∑n(Xi−X)2它常用于度量样本数据点围绕样本均值的离散分布程度。
9. 样本矩#
类似于总体矩的概念,我们可以利用样本数据构造对应的样本矩:
Ak=n1i=1∑nXikBk=n1i=1∑n(Xi−X)k由定义可知,一阶原点矩即为样本均值 A1=X。二阶中心矩 B2 与样本方差的关系为:
S2=n−1nB2
10. 次序统计量#
将样本观测值 X1,X2,…,Xn 按从小到大的顺序进行排列,得到:
X(1)≤X(2)≤⋯≤X(n)则称随机变量 X(1),X(2),…,X(n) 为该样本的次序统计量。
- 样本最小值:X(1)=min(X1,…,Xn)
- 样本最大值:X(n)=max(X1,…,Xn)
利用最大与最小值,我们可以定义样本的极差 R:
R=X(n)−X(1)
11. 抽样分布#
由于统计量是关于样本随机变量 of the sample 的函数,其本身也是一个随机变量,因而也具有相应的概率分布。统计量的概率分布称为抽样分布。
例如,当总体服从正态分布 X∼N(μ,σ2) 时,样本均值这一统计量的抽样分布为:
X∼N(μ,nσ2)
12. 数理统计中的三大典型抽样分布#
这三大抽样分布均由标准正态分布衍生而来,是数理统计推断的核心基石:
12.1 卡方分布(χ2 分布)#
设 Z1,Z2,…,Zn 相互独立,且均服从标准正态分布 Zi∼N(0,1)。则它们的平方和:
χ2=Z12+Z22+⋯+Zn2服从自由度为 n 的卡方分布,记作 χ2∼χ2(n)。
12.2 学生分布(t 分布)#
设随机变量 Z∼N(0,1),随机变量 U∼χ2(n),且 Z 与 U 相互独立。则其比值:
T=U/nZ服从自由度为 n 的 t 分布,记作 T∼t(n)。随着自由度 n 的增大,t 分布曲线会逐渐逼近标准正态分布曲线。
12.3 F 分布#
设随机变量 U∼χ2(m),随机变量 V∼χ2(n),且 U 与 V 相互独立。则其比值:
F=V/nU/m服从自由度为 (m,n) 的 F 分布,记作 F∼F(m,n)。
13. 单个正态总体下的常用统计量结论#
设样本 X1,X2,…,Xn 来自正态总体 N(μ,σ2),则有以下五个极为重要的统计量性质:
- 均值抽样分布:
X∼N(μ,nσ2)
- 标准化均值(σ2 已知):
σ/nX−μ∼N(0,1)
- 样本方差的卡方性质:
σ2(n−1)S2∼χ2(n−1)
- 样本方差替代后的 t 分布性质(σ2 未知):
S/nX−μ∼t(n−1)
- 独立性定理:
X 与 S2 相互独立(注意:此独立性质仅在总体为正态分布时成立)
14. 未知参数与参数估计#
- 参数:总体概率分布中包含的特征常数(如正态分布中的 μ 和 σ2)。
- 参数估计:在参数未知的情况下,利用样本计算得到的统计量作为未知参数的近似推断。
参数估计包括点估计(用一个确定的数值代表参数)与区间估计(构造一个以高概率包含参数的范围区间)。
15. 估计量的三大评价标准#
- 无偏性:估计量的期望值等于参数真实值,即 E(θ^)=θ;
- 有效性:在所有无偏估计量中,方差越小(估计波动越稳定)的估计量越有效;
- 相合性:当样本容量 n→∞ 时,估计量依概率收敛于未知参数的真实值 θ。
16. 假设检验基本思想#
假设检验是通过样本数据对关于总体的某种假设命题进行决策的过程:
- 提出假设:建立原假设 H0(代表无差异、厂家说法成立)与备择假设 H1;
- 设定显著性水平 α:规定犯第一类错误(即原假设真实却将其拒绝)的最大概率限度;
- 确定决策域:利用抽样分布设定拒绝域,若样本计算值落入拒绝域,则拒绝原假设 H0。
17. 本章核心公式速查表#
| 核心结论名称 | 对应数学公式表达式 |
|---|
| 样本均值定义式 | X=n1i=1∑nXi |
| 样本方差定义式 | S2=n−11i=1∑n(Xi−X)2 |
| 均值统计量期望与方差 | E(X)=μ,D(X)=nσ2 |
| 样本方差无偏期望 | E(S2)=σ2 |
| 方差的卡方统计量构造 | σ2(n−1)S2∼χ2(n−1) |
| 方差未知时的均值 t 统计量 | S/nX−μ∼t(n−1) |
| F 分布统计量构造 | F=V/nU/m |
18. 本章学习主线#
关于数理统计基本概念的学习逻辑,可以通过以下链路进行贯通掌握:
总体分布⟹样本抽样⟹构造统计量⟹推导抽样分布⟹开展参数估计与假设检验
19. 框框老师#
