高斯-马尔可夫定理

高斯-馬可夫定理（英語：），在統計學中陳述的是在线性回归模型中，如果线性模型满足高斯马尔可夫假定，则回归系数的“最佳线性无偏估计”（BLUE，英語：）就是普通最小二乘法估计。[1]最佳估计是指相较于其他估计量有更小方差的估计量，同时把对估计量的寻找限制在所有可能的线性无偏估计量中。此外，误差也不一定需要满足独立同分布或正态分布。

本定理主要以卡爾·弗里德里希·高斯和安德烈·马尔可夫命名，虽然高斯的贡献要远比马尔可夫的重要。高斯以独立正态分布的假设推导出了结果，而马尔可夫将假设放宽到了上述的形式。

表述

简单（一元）线性回归模型

对于简单（一元）线性回归模型，

y=\beta _{0}+\beta _{1}x+\varepsilon

其中 $\beta _{0}$ 和 $\beta _{1}$ 是非随机但不能观测到的参数， $x_{i}$ 是非随机且可观测到的一般变量， $\varepsilon _{i}$ 是不可观测的随机变量，或称为随机误差或噪音， $y_{i}$ 是可观测的随机变量。

高斯-马尔可夫定理的假设条件是：

在总体模型中，各变量关系为 $y=\beta _{0}+\beta _{1}x+\varepsilon$ (线性于参数)
我们具有服从于上述模型的随机样本，样本容量为n（随机抽样），
x的样本结果为非完全相同的数值（解释变量的样本有波动），
对于给定的解释变量，误差的期望为零，换言之 ${\rm {E}}\left(\varepsilon |x\right)=0$ （零条件均值），
对于给定的解释变量，误差具有相同的方差，换言之 ${\rm {Var}}\left(\varepsilon |x\right)=\sigma ^{2}$ （同方差性）。

则对 $\beta _{0}$ 和 $\beta _{1}$ 的最佳线性无偏估计为，

{\hat {\beta }}_{1}={\frac {\sum {x_{i}y_{i}}-{\frac {1}{n}}\sum {x_{i}}\sum {y_{i}}}{\sum {x_{i}^{2}}-{\frac {1}{n}}(\sum {x_{i}})^{2}}}={\frac {\widehat {{\text{Cov}}\left(x,y\right)}}{{\hat {\sigma _{x}}}^{2}}}={\hat {\rho }}_{xy}{\frac {\hat {\sigma _{x}}}{\hat {\sigma _{y}}}},\quad {\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}\,{\overline {x}}\ .

多元线性回归模型

对于多元线性回归模型，

y_{i}=\sum _{j=0}^{p}\beta _{j}x_{ij}+\varepsilon _{i}

,

x_{i0}=1;\quad i=1,\dots n.

使用矩阵形式，线性回归模型可简化记为 $\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ ，其中采用了以下记号：

$\mathbf {Y} =(y_{1},y_{2},\dots ,y_{n})^{T}$ (观测值向量，Vector of Responses),

$\mathbf {X} =(x_{ij})={\begin{bmatrix}1&x_{11}&x_{12}&\cdots &x_{1p}\\1&x_{21}&x_{22}&\cdots &x_{2p}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&x_{n2}&\cdots &x_{np}\end{bmatrix}}$ (设计矩阵，Design Matrix),

${\boldsymbol {\beta }}=(\beta _{0},\beta _{1},\dots ,\beta _{p})^{T}$ (参数向量，Vector of Parameters),

${\boldsymbol {\varepsilon }}=(\varepsilon _{1},\varepsilon _{2},\dots ,\varepsilon _{n})^{T}$ (随机误差向量，Vectors of Error)。

高斯-马尔可夫定理的假设条件是：

${\rm {E}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)=0$ ， $\forall \mathbf {X}$ （零均值），
${\rm {Var}}\left({\boldsymbol {\varepsilon }}\mid \mathbf {X} \right)={\rm {E}}\left({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{T}\mid \mathbf {X} \right)=\sigma _{\varepsilon }^{2}\mathbf {I_{n}}$ ，（同方差且不相关），其中 $\mathbf {I_{n}}$ 为n阶单位矩阵(Identity Matrix)。

则对 ${\boldsymbol {\beta }}$ 的最佳线性无偏估计为

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{T}\mathbf {X} )^{-1}\mathbf {X} ^{T}\mathbf {Y}

证明

首先，注意的是这里数据是 $\mathbf {Y}$ 而非 $\mathbf {X}$ ，我们希望找到 ${\boldsymbol {\beta }}$ 对于 $\mathbf {Y}$ 的线性估计量，记作

{\hat {\boldsymbol {\beta }}}=\mathbf {M} +\mathbf {N} \mathbf {Y}

其中 ${\hat {\boldsymbol {\beta }}}$ ， $\mathbf {M}$ ， $\mathbf {N}$ 和 $\mathbf {Y}$ 分别是 $(p+1)\times 1$ ， $(p+1)\times 1$ ， $(p+1)\times n$ 和 $n\times 1$ 矩阵。

根据零均值假设所得，

{\rm {E}}\left({\hat {\boldsymbol {\beta }}}\mid \mathbf {X} \right)=\mathbf {M} +\mathbf {N} {\rm {E}}\left(\mathbf {Y} \mid \mathbf {X} \right)=\mathbf {M} +\mathbf {N} \mathbf {X} {\boldsymbol {\beta }}

其次，我们同时限制寻找的估计量为无偏的估计量，即要求 ${\rm {E}}\left({\hat {\boldsymbol {\beta }}}\right)={\boldsymbol {\beta }}$ ，因此有

\mathbf {M} =\mathbf {0}

（零矩阵），

\mathbf {N} \mathbf {X} =\mathbf {I_{p+1}}

参见

方差分析
安斯库姆四重奏
横截面回归
曲线拟合
经验贝叶斯方法
邏輯斯諦迴歸
M估计
非线性回归
非参数回归
多元自适应回归样条
Lack-of-fit sum of squares
截断回归模型
删失回归模型
简单线性回归
分段线性回归

参考资料

Theil, Henri. . . New York: John Wiley & Sons. 1971: 119–124. ISBN 0-471-85845-5.

外部連結

Earliest Known Uses of Some of the Words of Mathematics: G (brief history and explanation of its name)
Proof of the Gauss Markov theorem for multiple linear regression （页面存档备份，存于） (makes use of matrix algebra)
A Proof of the Gauss Markov theorem using geometry

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Theil, Henri. . . New York: John Wiley & Sons. 1971: 119–124. ISBN 0-471-85845-5.

迴歸分析
统计学系列条目

模型
線性回歸简单线性回归（OLS）多项式回归一般线性模型
廣義線性模式离散选择对数几率回归多项罗吉特混合罗吉特波比多项式波比排序性模型有序波比泊松回归
等级线性模型固定效应随机效应混合模型
非线性回归非半稳健分位数迴歸保序回归主成分最小角局部分段
含误差变量
估计
线性偏最小二乘回归广义加权非线性非负重复再加权脊迴歸（嶺迴歸） LASSO
最小绝对值导数法贝叶斯贝叶斯多元
背景
回归模型检验平均响应和预测响应误差和残差拟合优度学生化残差
概率与统计主题