ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

计量笔记(二) | OLS估计量性质

2021-03-28 16:59:06  阅读:1222  来源: 互联网

标签:varepsilon tau 笔记 beta OLS pmb hat 估计量


上文中《计量笔记(一) | OLS估计量推导》我们通过基本公式和矩阵形式两种方式推导出了OLS估计量的表达式,那么OLS估计量有什么优良性质呢?

在线性模型的经典假设的前提下,OLS估计量有优良的性质,即高斯-马尔可夫定理

经典假设

1、零均值假定

假定随机干扰项 ε \pmb{\varepsilon} εεε期望向量或均值向量为零
E ( ε ) = E [ ε 1 ε 2 ⋮ ε n ] = [ E ( ε 1 ) E ( ε 2 ) ⋮ E ( ε n ) ] = [ 0 0 ⋮ 0 ] = 0 E(\pmb{\varepsilon})= E \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix} =\begin{bmatrix} E(\varepsilon_1) \\ E(\varepsilon_2) \\ \vdots \\ E(\varepsilon_n) \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \\ \vdots\\ 0 \end{bmatrix} =\pmb{0} E(εεε)=E⎣⎢⎢⎢⎡​ε1​ε2​⋮εn​​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​E(ε1​)E(ε2​)⋮E(εn​)​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​00⋮0​⎦⎥⎥⎥⎤​=000
2、同方差和无序列相关假定

假定随机干扰项 ε \pmb{\varepsilon} εεε不存在序列相关且方差相同

这里推导过程中使用了零均值假定
V a r ( ε ) = E [ ( ε − E ( ε ) ( ε − E ( ε ) τ ] = E ( ε ε τ ) = E [ ( ε 1 ε 2 ⋮ ε n ) ( ε 1 ε 2 ⋯ ε n ) ] = [ E ( ε 1 , ε 1 ) E ( ε 1 , ε 2 ) ⋯ E ( ε 1 , ε n ) E ( ε 2 , ε 1 ) E ( ε 2 , ε 2 ) ⋯ E ( ε 2 , ε n ) ⋮ ⋮ ⋮ ⋮ E ( ε n , ε 1 ) E ( ε n , ε 2 ) ⋯ E ( ε n , ε n ) ] = [ σ 2 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋮ ⋮ 0 0 ⋯ σ 2 ] = σ 2 I n \begin{aligned} Var(\pmb{\varepsilon}) & = E[(\pmb{\varepsilon}-E(\pmb{\varepsilon})(\pmb{\varepsilon}-E(\pmb{\varepsilon})^{\tau}] \\ & = E(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}) \\ & = E\begin{bmatrix} \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix} \begin{pmatrix} \varepsilon_1 & \varepsilon_2 & \cdots & \varepsilon_n \end{pmatrix} \end{bmatrix} \\ & = \begin{bmatrix} E(\varepsilon_1,\varepsilon_1) & E(\varepsilon_1,\varepsilon_2) & \cdots & E(\varepsilon_1,\varepsilon_n) \\ E(\varepsilon_2,\varepsilon_1) & E(\varepsilon_2,\varepsilon_2) & \cdots & E(\varepsilon_2,\varepsilon_n) \\ \vdots & \vdots & \vdots & \vdots \\ E(\varepsilon_n,\varepsilon_1) & E(\varepsilon_n,\varepsilon_2) & \cdots & E(\varepsilon_n,\varepsilon_n) \end{bmatrix} \\ & = \begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix} \\ & = \sigma^2\pmb{I}_n \end{aligned} Var(εεε)​=E[(εεε−E(εεε)(εεε−E(εεε)τ]=E(εεεεεετ)=E⎣⎢⎢⎢⎡​⎝⎜⎜⎜⎛​ε1​ε2​⋮εn​​⎠⎟⎟⎟⎞​(ε1​​ε2​​⋯​εn​​)​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​E(ε1​,ε1​)E(ε2​,ε1​)⋮E(εn​,ε1​)​E(ε1​,ε2​)E(ε2​,ε2​)⋮E(εn​,ε2​)​⋯⋯⋮⋯​E(ε1​,εn​)E(ε2​,εn​)⋮E(εn​,εn​)​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​σ20⋮0​0σ2⋮0​⋯⋯⋮⋯​00⋮σ2​⎦⎥⎥⎥⎤​=σ2IIIn​​

3、随机干扰项与解释变量相互独立假定

直观理解是干扰项中不包含解释变量的信息

通常假定 X X X中的元素 X 2 , i , X 3 , i , ⋯   , X k , i X_{2,i},X_{3,i},\cdots,X_{k,i} X2,i​,X3,i​,⋯,Xk,i​为非随机变量,这个假设自动成立
E ( X τ ε ) = 0 E(X^{\tau}\pmb{\varepsilon})=\pmb{0} E(Xτεεε)=000
4、无多重共线性假定

各解释变量之间不存在线性关系

即数据矩阵 X X X列满秩
R a n k ( X ) = k Rank(X)=k Rank(X)=k
5、正态性假定

假定随机干扰项服从正态分布

以下方式表示包括了假定1、假定2、假定5
ε − N ( 0 , σ 2 I n ) \pmb{\varepsilon} - N(\pmb{0},\sigma^2\pmb{I}_n) εεε−N(000,σ2IIIn​)
OLS估计量性质

高斯-马尔可夫定理:在线性模型的经典假设下,参数的最小二乘估计量是线性无偏估计量中方差最小的估计量(BLUE估计量)

1、线性特性

参数估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​既是因变量观测值 Y Y Y的线性组合,也是随机误差项 ε \pmb{\varepsilon} εεε的线性组合
β ^ = ( X τ X ) − 1 X τ Y = ( X τ X ) − 1 X τ ( X β + ε ) = ( X τ X ) − 1 X τ X β + ( X τ X ) − 1 X τ ε = β + ( X τ X ) − 1 X τ ε \begin{aligned} \pmb{\hat\beta} & = (X^{\tau}X)^{-1}X^{\tau}Y \\ & = (X^{\tau}X)^{-1}X^{\tau}(X \pmb{\beta} + \pmb{\varepsilon}) \\ & = (X^{\tau}X)^{-1}X^{\tau}X \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \\ & = \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \end{aligned} β^​​β^​​​β^​​=(XτX)−1XτY=(XτX)−1Xτ(Xβ​β​​β+εεε)=(XτX)−1XτXβ​β​​β+(XτX)−1Xτεεε=β​β​​β+(XτX)−1Xτεεε​
这里推导未使用任何假定,令 A = ( X τ X ) − 1 X τ A=(X^{\tau}X)^{-1}X^{\tau} A=(XτX)−1Xτ,则 β ^ = A Y = β + A ε \pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon} β^​​β^​​​β^​=AY=β​β​​β+Aεεε

其中,矩阵 A A A由 k k k行 n n n列元素构成, k k k指解释变量个数包括截距项, n n n是指观测值个数

对于某个参数 β ^ k \hat\beta_k β^​k​是矩阵 A A A的 k k k行元素构成的行向量与因变量观测值 Y Y Y的向量积

线性特性是确定参数估计量的分布性质和进行统计推断的重要基础

2、无偏性

参数估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​的期望等于总体参数
E ( β ^ ) = E ( β + A ε ) = E ( β ) + A E ( ε ) = β \begin{aligned} E(\pmb{\hat\beta}) & = E(\pmb{\beta} + A\pmb{\varepsilon}) \\ & = E(\pmb{\beta}) + AE(\pmb{\varepsilon}) \\ & = \pmb{\beta} \end{aligned} E(β^​​β^​​​β^​)​=E(β​β​​β+Aεεε)=E(β​β​​β)+AE(εεε)=β​β​​β​
这里用到了线性特性、假定1、假定3

3、方差最小性

OLS估计量的有效性,也称为“最小方差性”,即在模型参数的所有线性无偏估计量中OLS估计的方差最小

先求OLS估计量的协方差矩阵
V a r ( β ^ ) = E [ ( β ^ − E ( β ^ ) ) ( β ^ − E ( β ^ ) ) τ ] = E [ ( β ^ − β ) ( β ^ − β ) τ ] = E [ ( A ε ) ( A ε ) τ ] = E [ A ε ε τ A τ ] = A E ( ε ε τ ) A τ = A σ 2 I n A τ = σ 2 A A τ = σ 2 ( X τ X ) − 1 X τ X ( X τ X ) − 1 = σ 2 ( X τ X ) − 1 \begin{aligned} Var(\pmb{\hat\beta}) & = E[(\pmb{\hat\beta}-E(\pmb{\hat\beta}))(\pmb{\hat\beta}-E(\pmb{\hat\beta}))^{\tau}] \\ & = E[(\pmb{\hat\beta}-\pmb{\beta})(\pmb{\hat\beta}-\pmb{\beta})^{\tau}] \\ & = E[(A\pmb{\varepsilon})(A\pmb{\varepsilon})^{\tau}] \\ & = E[A\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}A^{\tau}] \\ & = AE(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau})A^{\tau} \\ & = A\sigma^2\pmb{I}_nA^{\tau} \\ & = \sigma^2AA^{\tau} \\ & = \sigma^2(X^{\tau}X)^{-1}X^{\tau}X(X^{\tau}X)^{-1} \\ & = \sigma^2(X^{\tau}X)^{-1} \end{aligned} Var(β^​​β^​​​β^​)​=E[(β^​​β^​​​β^​−E(β^​​β^​​​β^​))(β^​​β^​​​β^​−E(β^​​β^​​​β^​))τ]=E[(β^​​β^​​​β^​−β​β​​β)(β^​​β^​​​β^​−β​β​​β)τ]=E[(Aεεε)(Aεεε)τ]=E[AεεεεεετAτ]=AE(εεεεεετ)Aτ=Aσ2IIIn​Aτ=σ2AAτ=σ2(XτX)−1XτX(XτX)−1=σ2(XτX)−1​
这里因为 ( X τ X ) − 1 (X^{\tau}X)^{-1} (XτX)−1是对称矩阵,所以它的转置还是它本身,所以 A τ = X ( X τ X ) − 1 A^{\tau}=X(X^{\tau}X)^{-1} Aτ=X(XτX)−1

这里用到无偏性、线性特性、假定3、假定2

接下来就要证明上述OLS估计量的协方差矩阵是所有线性无偏估计量的协方差矩阵中是最小的(省略)

参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​的分布形式

我们在证明OLS估计量具有最佳线性无偏估计量性质的过程中仅使用了假定1、假定2、假定3,未使用到假定4和假定5,并且在证明过程中,我们也知道了OLS估计量的均值和方差,如果我们进一步知道OLS估计量分布形式,就可以进行统计推断了

根据假定5,可以推导出参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​也是服从正态分布的

根据线性特性 β ^ = A Y = β + A ε \pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon} β^​​β^​​​β^​=AY=β​β​​β+Aεεε,说明参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​是随机误差项 ε \pmb{\varepsilon} εεε的线性组合,而根据假定5随机误差项 ε \pmb{\varepsilon} εεε服从正态分布,所以参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​也服从正态分布

因为 E ( β ^ ) = β E(\pmb{\hat\beta})=\pmb{\beta} E(β^​​β^​​​β^​)=β​β​​β, V a r ( β ^ ) = σ 2 ( X τ X ) − 1 Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1} Var(β^​​β^​​​β^​)=σ2(XτX)−1,所以参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​正态分布形式为
β ^ − N ( β , σ 2 ( X τ X ) − 1 ) \pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1}) β^​​β^​​​β^​−N(β​β​​β,σ2(XτX)−1)
对于具体的某个估计量 b j ^ \hat{b_j} bj​^​的分布形式为 b j ^ − N ( b j , σ 2 ( ( X τ X ) − 1 ) j j ) \hat{b_j}-N(b_j,\sigma^2((X^{\tau}X)^{-1})_{jj}) bj​^​−N(bj​,σ2((XτX)−1)jj​)

随机误差项方差的估计

前文推导过程中,我们求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​的具体数值, β ^ = ( X τ X ) − 1 X τ Y \pmb{\hat\beta} = (X^{\tau}X)^{-1}X^{\tau}Y β^​​β^​​​β^​=(XτX)−1XτY,我们求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​的期望和方差, E ( β ^ ) = β E(\pmb{\hat\beta})=\pmb{\beta} E(β^​​β^​​​β^​)=β​β​​β, V a r ( β ^ ) = σ 2 ( X τ X ) − 1 Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1} Var(β^​​β^​​​β^​)=σ2(XτX)−1,我们甚至求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^​​β^​​​β^​的分布形式, β ^ − N ( β , σ 2 ( X τ X ) − 1 ) \pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1}) β^​​β^​​​β^​−N(β​β​​β,σ2(XτX)−1)

但是,不难发现,上述表达式中,始终有个随机误差项的方差 σ 2 \sigma^2 σ2的取值我们不得而知,事实上我们也无法计算,因为我们不知道总体回归模型和总体样本是如何

但是,我们可以对 σ 2 \sigma^2 σ2进行估计,若计
σ ^ 2 = ∑ e i 2 n − k \hat{\sigma}^2= \frac{\sum{e_i^2}}{n-k} σ^2=n−k∑ei2​​
可以证明, E ( σ ^ 2 ) = σ 2 E(\hat{\sigma}^2)=\sigma^2 E(σ^2)=σ2,证明省略

那么,对于具体的某个估计量 b j ^ \hat{b_j} bj​^​的分布形式为 b j ^ − N ( b j , σ ^ 2 ( ( X τ X ) − 1 ) j j ) \hat{b_j}-N(b_j,\hat\sigma^2((X^{\tau}X)^{-1})_{jj}) bj​^​−N(bj​,σ^2((XτX)−1)jj​)

欢迎关注微信公众号:乌龙PySta (ID: wylcfy2014)
不定期推送python和stata笔记,经管文本分析与机器学习

标签:varepsilon,tau,笔记,beta,OLS,pmb,hat,估计量
来源: https://blog.csdn.net/weixin_47172744/article/details/115283290

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有