# 一、矩阵代数

# 二、专题:矩阵求导术

# 1. 标量对向量求导

# 1.1 定义

fX=fxij\frac{\partial f}{\partial X}=\frac{\partial f}{\partial x_{ij}}

  • ffXX逐元素求导排成与XX尺寸相同的矩阵

特别地,XXmm维列向量,

X=(x1x2xm)\frac{\partial}{\partial X}= \begin{pmatrix} \frac{\partial}{\partial x_1} \\ \frac{\partial}{\partial x_2} \\ \vdots \\ \frac{\partial}{\partial x_m} \end{pmatrix}

# 1.2 一些可用的结论

# 1.2.1 线性函数求导

y=ax=xa=i=1naixiy=a'x=x'a=\sum_{i=1}^{n}a_i x_i

  • aa, bb常数向量,则有:

axx=axbx=b\frac{\partial{a'x}}{\partial x}=a\\ \frac{\partial{x'b}}{\partial x}=b\\

Notice: 这里注意aa的区别!!!\text{Notice: 这里注意$a'$与$a$的区别!!!}

# 1.2.2 二次型问题

  • AA常数矩阵

A对称:xAxx=2AxA非对称:xAxx=(A+A)xxAxaij=xixjxAxA=xxA对称:\frac{\partial {x'Ax}}{\partial x}=2Ax \\A非对称:\frac{\partial {x'Ax}}{\partial x}=(A+A')x \\ \ \\ \frac{\partial {x'Ax}}{\partial a_{ij}}=x_i x_j \\ \frac{\partial {x'Ax}}{\partial A}=x\cdot x'

# 1.2.3 行列式求导

Aaij=(1)i+jAij=cijAij1=CjiAlnAaij=(1)i+jCjiAlnAA=(A1)\frac{\partial |A|}{\partial a_{ij}}=(-1)^{i+j}|A_{ij}|=c_{ij} \\ \ \\ \ \\ \because\ A_{ij}^{-1}=\frac{|C_{ji}|}{|A|}\\ \therefore\ \frac{\partial ln|A|}{\partial {a_{ij}}}=\frac{(-1)^{i+j}|C_{ji}|}{|A|} \\ \frac{\partial ln|A|}{\partial {A}}=(A^{-1})'

# 2. 向量对向量求导(暂略)

# 三、概率论相关

# 1. 概率论基础

# 2. 多维随机向量的概率分布

# 3. 条件分布

# 4. 随机变量的数字特征:总体矩

# 4.1 离散与连续

# 4.1.1 离散分布

pkP(X=xk)E(X)μk=1xkpkp_k\equiv P(X=x_k)\\ E(X)\equiv \mu \equiv \sum_{k=1}^{\infty}x_k p_k

# 4.1.2 连续分布

f(x)dx=1E(X)μxf(x)dx\int_{-\infty}^{\infty}f(x)dx=1 \\ E(X)\equiv \mu \equiv \int_{-\infty}^{\infty}xf(x)dx

# 4.2 矩

# 4.2.1 定义

E(g(x))=g(x)f(x)dxE(g(x))=\int_{-\infty}^{\infty}g(x)f(x)dx

# 4.2.2 概率统计中常用的两类矩

  • 原点矩:E(Xn)E(X^n)

  • 中心矩:E(XE(X))nE(X-E(X))^n

    • 特别地,

      偏度E(xμσ)3E(\frac{x-\mu}{\sigma})^3

      • 反映不对称性(对称分布的偏度为0)
      • 需注意单位问题(因此做了单位化)

      峰度E(xμσ)4E(\frac{x-\mu}{\sigma})^4

      • 最高处有多“尖”,最尾部有多“厚”

      • XN(0,1),E(xμσ)4=3X\sim N(0,1), \ E(\frac{x-\mu}{\sigma})^4=3

      • 超额峰度:E(xμσ)43E(\frac{x-\mu}{\sigma})^4-3

# 4.3 条件期望与条件方差

# 4.3.1 条件期望

E(YX=x)=E(Yx)=yf(yx)dyE(Y|X=x)=E(Y|x)=\int_{-\infty}^{\infty}yf(y|x)dy

  • Notice: 是关于xx的函数,yy已被积分掉

# 4.3.2 条件方差

Var(YX=x)Var(Yx)=[yE(Yx)]2f(yx)dyVar(Y|X=x)\equiv Var(Y|x)=\int_{-\infty}^{\infty}[y-E(Y|x)]^{2} f(y|x)dy

# 4.4 多维随机向量的期望、方差

# 4.4.1对向量(矩阵)的期望

E(X)=E(X1X2Xn)=(E(X1)E(X2)E(Xn))E(X)=E\begin{pmatrix}X_1\\X_2\\ \vdots \\ X_n\end{pmatrix}=\begin{pmatrix}E(X_1)\\E(X_2)\\ \vdots \\ E(X_n)\end{pmatrix}

# 4.4.2 协方差矩阵

  • 协方差矩阵

Cov(X,Y)m×n=E[(XE(X))(YE(Y))]=E(XY)E(X)E(Y)=E[(X1E(X1)X2E(X2)XmE(Xm))(Y1E(Y1)Y2E(Y2)YnE(Yn))]=E((X1E(X1))(Y1E(Y1))(X1E(X1))(Y2E(Y2))(X1E(X1))(YnE(Yn))(X2E(X2))(Y1E(Y1))(X2E(X2))(Y2E(Y2))(X2E(X2))(YnE(Yn))(XmE(Xm))(Y1E(Y1))(XmE(Xm))(Y2E(Y2))(XmE(Xm))(Y1E(Y1)))=(Cov(X1,Y1)Cov(X1,Y2)Cov(X1,Yn)Cov(X2,Y1)Cov(X2,Y2)Cov(X2,Yn)Cov(Xm,Y1)Cov(Xm,Y2)Cov(Xm,Yn)) \scriptstyle \begin{aligned} Cov(X,Y)_{m\times n}&=E[(X-E(X))(Y-E(Y))']\\ &=E(XY')-E(X)E(Y)' \\ &=E[\begin{pmatrix}X_1-E(X_1)\\X_2-E(X_2)\\ \vdots \\ X_m-E(X_m)\end{pmatrix}\begin{pmatrix}Y_1-E(Y_1)&Y_2-E(Y_2) &\cdots Y_n-E(Y_n)\end{pmatrix}]\\ &=E\begin{pmatrix}(X_1-E(X_1))(Y_1-E(Y_1)) &(X_1-E(X_1))(Y_2-E(Y_2)) &\cdots&(X_1-E(X_1))(Y_n-E(Y_n))\\(X_2-E(X_2))(Y_1-E(Y_1)) &(X_2-E(X_2))(Y_2-E(Y_2)) &\cdots &(X_2-E(X_2))(Y_n-E(Y_n))\\ \vdots &\vdots &\ddots &\vdots \\ (X_m-E(X_m))(Y_1-E(Y_1)) &(X_m-E(X_m))(Y_2-E(Y_2)) &\cdots &(X_m-E(X_m))(Y_1-E(Y_1))\end{pmatrix}\\ &=\begin{pmatrix}Cov(X_1, Y_1) &Cov(X_1, Y_2) &\cdots&Cov(X_1, Y_n)\\Cov(X_2,Y_1) &Cov(X_2,Y_2) &\cdots &Cov(X_2,Y_n)\\ \vdots &\vdots &\ddots &\vdots \\ Cov(X_m,Y_1) &Cov(X_m,Y_2)&\cdots &Cov(X_m,Y_n)\end{pmatrix} \end{aligned}

  • 特别地,方差协方差矩阵

Var(X)m×m=E[(XE(X))(XE(X))]=E(XX)E(X)E(X)=(Var(X1)Cov(X1,X2)Cov(X1,Xm)Cov(X2,X1)Var(X2)Cov(X2,Xm)Cov(Xm,X1)Cov(Xm,X2)Var(Xm))\begin{aligned} Var(X)_{m\times m}&=E[(X-E(X))(X-E(X))']\\&=E(XX')-E(X)E(X)'\\ &= \begin{pmatrix}Var(X_1) &Cov(X_1, X_2) &\cdots&Cov(X_1, X_m)\\Cov(X_2,X_1) &Var(X_2) &\cdots &Cov(X_2,X_m)\\ \vdots &\vdots &\ddots &\vdots \\ Cov(X_m,X_1) &Cov(X_m,X_2)&\cdots &Var(X_m)\end{pmatrix} \end{aligned}

# 4.4.3 夹心估计量(A、B为常数矩阵)

Cov(AX,BY)=ACov(X,Y)BVar(AX)=AVar(X)ACov(AX,BY)=ACov(X,Y)B'\\ Var(AX)=AVar(X)A'

  • 特别地,若A为***对称矩阵***,

    Var(AX)=AVar(X)AVar(AX)=AVar(X)A

# 4.4.4 矩阵和的方差Var(X+Y)Var(X+Y)

Var(X+Y)=Var(X)+Var(Y)+Cov(X,Y)+Cov(X,Y)Var(X+Y)=Var(X)+Var(Y)+Cov(X,Y)+Cov(X,Y)'

# 5. 样本矩:总体矩的参数估计

# 5.1 期望迭代定律

E(Y)=EX[E(YX=x)]E(g(Y))=EX[E(g(Y)X=x)]E(Y)=E_{X}[E(Y|X=x)]\\ E(g(Y))=E_X[E(g(Y)|X=x)]

  • 给定X=xX=x, 先求出YY的条件期望

  • 再对XX求期望

  • XX离散,无条件期望=条件期望的加权平均

    E(Y)=iP(X=xi)E(Yxi)E(Y)=\sum_{i}P(X=x_i)E(Y|x_i)

    • 证明如下:

      EX[E(Yx)]=iP(X=xi)E(Yxi)=iP(X=xi)[jP(Y=yjxi)yj]=iP(X=xi)[jP(Y=yj,x=xi)P(X=xi)yj]=j[iP(Y=yj,x=xi)yj]=E(Y)\begin{aligned} E_{X}[E(Y|x)]&=\sum_{i}P(X=x_i)E(Y|x_i)\\ &=\sum_{i}P(X=x_i)[\sum_{j}P(Y=y_j|x_i)\cdot y_j]\\ &=\sum_{i}P(X=x_i)[\sum_{j}\frac{P(Y=y_j,x=x_i)}{P(X=x_i)}\cdot y_j]\\ &=\sum_{j}[\sum_{i}P(Y=y_j,x=x_i)\cdot y_j]\\ &=E(Y) \end{aligned}

# 5.2 方差分解定律

Var(y)=VarX[E(yX)]+EX[Var(yX)]对于估计量而言:Var(b)=VarX[E(bX)]+EX[Var(bX)]=EX[Var(bX)]=EX[σ2(XX)1]=σ2EX[(XX)1]\begin{aligned} Var(y)&=Var_{X}[E(y|X)]+E_{X}[Var(y|X)] \\ \ \\ 对于估计量而言:\\ Var(b)&=Var_{X}[E(b|X)]+E_{X}[Var(b|X)] \\ &=E_X[Var(b|X)]\\ &=E_X[\sigma^2(X'X)^{-1}]\\ &=\sigma^2E_X[(X'X)^{-1}] \end{aligned}

# 6. 随机变量无关的三个层次:线性独立—>均值独立—>线性不相关

  • 相互独立:f(x,y)=fx(x)fy(y)f(x,y)=f_x(x)f_y(y)

  • 均值独立:E(YX=x)=E(Y)E(Y|X=x)=E(Y)

    • Notice: 并不意味着X均值独立于Y

    • Theorem:若Y均值独立于X,或者X均值独立于Y,则有Cov(X,Y)=0Cov(X,Y)=0

      Cov(X,Y)=E[(XEX)(YEY)]=EXEY[(XEX)(YEY)X=x]=EX[(XEX)EY[(YEY)X=x]]=EX[[XE(X)][E(Yx)E(Y)]]=0 \begin{aligned} Cov(X,Y)&=E[(X-EX)(Y-EY)]\\ &=E_X E_Y[(X-EX)(Y-EY)|X=x]\\ &=E_X [(X-EX)E_Y[(Y-EY)|X=x]]\\ &=E_X[[X-E(X)][E(Y|x)-E(Y)]]\\ &=0 \end{aligned}

  • 线性不相关:Cov(x,y)=0Cov(x,y)=0

# 四、统计基础

# 1. 常用连续型统计分布

# 1.1 正态分布

# 1.1.1 一维正态分布

f(x)=12πσ2e(xμ)22σ2f(x)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{\frac{-(x-\mu)^2}{2\sigma^2}}

# 1.1.2 多维正态分布

f(X1,X2,,Xn)=1(2π)n2Σ1/2e12(Xμ)Σ1(Xμ)其中:Σ=(Var(X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Var(X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Var(Xn))f(X_1,X_2,\cdots,X_n)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{1/2}}e^{-\frac{1}{2}(X-\mu)'\Sigma^{-1}(X-\mu)}\\ \ \\ \ \\ \ \\ 其中:\ \Sigma=\begin{pmatrix}Var(X_1) &Cov(X_1, X_2) &\cdots&Cov(X_1, X_n)\\Cov(X_2,X_1) &Var(X_2) &\cdots &Cov(X_2,X_n)\\ \vdots &\vdots &\ddots &\vdots \\ Cov(X_n,X_1) &Cov(X_n,X_2)&\cdots &Var(X_n)\end{pmatrix}

# 1.2 X2\mathcal{X}^{2}分布​

  • {Z1,Z2,,Zk}N(0,1)\{Z_1,Z_2,\cdots,Z_k\}\sim N(0,1),则:

    i=1kZi2X2(k)\sum_{i=1}^{k}Z_{i}^2 \sim \mathcal{X}^2(k)

    • 期望kk,方差2k2k

    • if ZN(0,1),Z2X2(1)Z\sim N(0,1), Z^2\sim \mathcal{X}^2(1)

    • 补充:

      mm维随机变量xx服从正态分布N(μ,Σ)N(\mu, \Sigma),其中Σ\Sigma为非退化矩阵(满秩),则二次型

      (xμ)Σ1(xμ)χ2(m)(x-\mu)'\Sigma^{-1}(x-\mu)\sim \chi^2(m)

# 1.3 t分布

ZN(0,1)YX2(k)Z\sim N(0,1),Y\sim \mathcal{X}^2(k),且Z与Y相互独立,则

ZY/kt(k)\frac{Z}{\sqrt{Y/k}}\sim t(k)

# 1.4 F分布

Y1X(k1)Y_1 \sim \mathcal{X}^(k_1), Y2X2(k2)Y_2\sim \mathcal{X}^2(k_2), 且Y1,Y2Y_1,Y_2相互独立,

Y1/k1Y2/k2F(k1,k2)\frac{Y_1/k_1}{Y_2/k_2}\sim F(k_1,k_2)

  • 如果Xt(k)X\sim t(k), 则X2F(1,k)X^2\sim F(1,k)

  • F分布与χ2\chi^2分布在大样本下是等价的

    **命题:假设FF(m,nK)F\sim F(m, n-K)**分布,则当nn\rightarrow\infty时,mFdχ2(m)mF \stackrel{d}\longrightarrow \chi^2(m)

# 2. 统计推断相关概念

# 2.1 均方误差

  • MSE(θ^)=E[(θ^θ)2]=Var(θ^)+[Bias(θ^)]2MSE(\hat{\theta})=E[(\hat{\theta}-\theta)^2]=Var(\hat{\theta})+[Bias(\hat{\theta})]^2

  • 证明:

    MSE(θ^)=E[(θ^θ)2]=E{[θ^E(θ^)+E(θ^)θ]}=E[θ^E(θ^)]2+2E{[θ^E(θ^)][E(θ^)θ]}+E[E(θ^)θ]2=Var(θ^)+2[E(θ^)θ]E[θ^E(θ^)]+[Bias(θ^)]2=Var(θ^)+[Bias(θ^)]2\begin{aligned} MSE(\hat{\theta})&=E[(\hat{\theta}-\theta)^2]\\ &=E\{[\hat{\theta}-E(\hat{\theta})+E(\hat{\theta})-\theta]\}\\ &=E[\hat{\theta}-E(\hat{\theta})]^2 +2E\{[\hat{\theta}-E(\hat{\theta})][E(\hat{\theta})-\theta]\}+E[E(\hat{\theta})-\theta]^2\\ &=Var(\hat{\theta})+2[E(\hat{\theta})-\theta]E[\hat{\theta}-E(\hat{\theta})]+[Bias(\hat{\theta})]^2\\ &=Var(\hat{\theta})+[Bias(\hat{\theta})]^2 \end{aligned}

# 五、小样本OLS

# 1. OLS推导

# 1.1 标量形式

  • 标准方程组

    {1ni=1nei=01ni=1nxiei=0ei=yiα^β^ximinα^,β^i=1n(yiα^β^xi)2\begin{cases} \frac{1}{n}\sum_{i=1}^{n}e_{i}=0 \\ \frac{1}{n}\sum_{i=1}^{n}x_i e_{i}=0 \end{cases}\\ \ \\ \ \\\ \\ e_i=y_i-\hat{\alpha}-\hat{\beta}x_i \\ \ \\ \mathop{min}_{\hat{\alpha},\hat{\beta}} \sum_{i=1}^{n}(y_i-\hat{\alpha}-\hat{\beta}x_i)^2

  • 推导过程

    yˉ=α^+β^xˉxi[(yiyˉ)β^(xixˉ)]=0xi(yiyˉ)β^xi(xixˉ)=0β^=xi(yiyˉ)xi(xixˉ)=(xixˉ)(yiyˉ)(xixˉ)(xixˉ)α^=yˉβ^xˉ\bar{y}=\hat{\alpha}+\hat{\beta}\bar{x}\\ \downarrow \\ \sum x_i[(y_i-\bar{y})-\hat{\beta}(x_i-\bar{x})]=0 \\ \downarrow \\ \sum x_i(y_i-\bar{y})-\hat{\beta}\sum x_i(x_i-\bar{x})=0 \\ \downarrow \\ \hat{\beta}=\frac{\sum x_i(y_i-\bar{y})}{\sum x_i(x_i-\bar{x})}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})(x_i-\bar{x})} \\ \downarrow \\ \hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}

# 1.2 向量形式

# 1.2.1 代数法

Y=Xβ^+eminβ^SSR=minβ^(YXβ^)(YXβ^)=minβ^(YYYXβ^β^XY+β^XXβ^)=minβ^(YY2YXβ^scalar!!!+β^XXβ^)SSRβ^=2XY+2XXβ^=0Notice: 这里用到了 二、1.2中的矩阵求导知识β^=(XX)1XYY=X\hat{\beta}+e \\ \ \\ \begin{aligned} \mathop{min}_{\hat{\beta}}SSR &=\mathop{min}_{\hat{\beta}} (Y-X\hat{\beta})'(Y-X\hat{\beta})\\ &=\mathop{min}_{\hat{\beta}}(Y'Y-Y'X\hat{\beta}-\hat{\beta}'X'Y+\hat{\beta}X'X\hat{\beta})\\ &=\mathop{min}_{\hat{\beta}}(Y'Y-\underbrace{2Y'X\hat{\beta}}_{scalar!!!}+\hat{\beta}X'X\hat{\beta}) \\ \end{aligned} \\ \ \\ \frac{\partial SSR}{\partial \hat{\beta}}=-2X'Y+2X'X\hat{\beta}=0 \\ \text{Notice: 这里用到了 二、1.2中的矩阵求导知识} \\ \hat{\beta}=(X'X)^{-1}X'Y

# 1.2.2 几何法

Xe=(111x12x22xn2x1kx2kxnk)k×n(e1e2en)n×1=0e=YXβ^X(YXβ^)=0β^=(XX)1XYX'e= \begin{pmatrix} 1 &1 & \cdots &1 \\ x_{12} &x_{22} &\cdots &x_{n2} \\ \vdots &\vdots &\ddots &\vdots \\ x_{1k} &x_{2k} &\cdots &x_{nk} \end{pmatrix}_{k\times n}\cdot \begin{pmatrix} e_1 \\ e_2 \\ \vdots \\ e_n \end{pmatrix}_{n\times 1}=0 \\ \ \\ \ \\ e=Y-X\hat{\beta}\\ X'(Y-X\hat{\beta})=0 \\ \hat{\beta}=(X'X)^{-1}X'Y

# 2. Projection Matrix, Residual Making Matrix and Frisch-Waugh-Lovell Theorem

# 2.1 推导

y^=Xβ^=X(XX)1XYSetPx=X(XX)1X[ProjectionMatrix]e=yPxy=[IPx]ySetMx=IPx=IX(XX)1X[ResidualMakingMatrix]e=Mxy=Mxuy^=Pxy\hat{y}=X\hat{\beta}=X(X'X)^{-1}X'Y\\ Set\ P_x=X(X'X)^{-1}X'\ [Projection\ Matrix]\\ e=y-P_{x}y=[I-P_x]y \\ Set\ M_x=I-P_x=I-X(X'X)^{-1}X'\ [Residual\ Making\ Matrix]\\ \therefore\ e=M_x y=M_xu\\ \ \ \ \hat{y}=P_x y

# 2.2 Px,MxP_x, M_x性质

  1. Px+Mx=IP_x+M_x=I
  2. 对称性:Px=PxP_x=P_x', Mx=MxM_x=M_x'
  3. 等幂矩阵:PxPx=Px,MxMx=MxP_x P_x=P_x, \ M_x M_x=M_x
    • 勾股定理:yy=yPPy+yMMy=y^y^+eey'y=y'P'Py+y'M'My=\hat{y}'\hat{y}+e'e
  4. PX=X,Pe=0,MX=0PX=X,\ Pe=0,\ MX=0
  5. PxP_xMxM_x正交:PxMx=MxPx=0P_xM_x=M_xP_x=0

# 2.3 Frisch-Waugh-Lovell Theorem

# 2.3.1 描述

  • 在向量y\vec{y}对两组变量X1,X2X_1, X_2的线性最小二乘回归中,将y\vec{y}X1X_1单独做回归并得到残差,然后将X2X_2中的每列对X1X_1做回归并得到一组残差,将前者得到的残差对后者得到的残差集再次回归,得到β2^\hat{\beta_2} [Partial Out]。

# 2.3.2 原理

X=[X1,X2]y=X1β1+X2β2+uDefineP1=X(XX)1XM=IP1M1y=M1X1β1=0+M1X2β2+M1u其中:M1y:yX1做回归所得的残差向量M1X2:X2每一列对X1做回归所得的矩阵(向量集)X=[X_1,X_2]\\ y=X_1\beta_1+X_2 \beta_2+u\\ Define\ P_1=X(X'X)^{-1}X'\\ M=I-P_1\\ M_1 y=\underbrace{M_1 X_1\beta_1}_{=0}+M_1X_2 \beta_2+M_1u \\ 其中:\\ \begin{aligned} &M_1y: y对X_1做回归所得的残差向量 \\ &M_1X_2:X_2每一列对X_1做回归所得的矩阵(向量集) \end{aligned}

# 2.3.3 更正式的推导:分块回归与偏回归

  • 描述

    y=Xβ+u=(X1X2)(β1β2)+u=X1β1+X2β2+uy=X\beta+u=\begin{pmatrix}X_1&X_2\end{pmatrix} \begin{pmatrix}\beta_1 \\ \beta_2\end{pmatrix}+u=X_1\beta_1+X_2\beta_2+u

  • 正规方程组

    (X1X1X1X2X2X1X2X2)(β1^β2^)=(X1yX2y)\begin{pmatrix}X_1{'}X_1 &X_1{'}X_2\\ X_2{'}X_1 &X_2{'}X_2 \end{pmatrix}\begin{pmatrix}\hat{\beta_1}\\ \hat{\beta_2} \end{pmatrix}=\begin{pmatrix}X_1{'}{y}\\ X_2{'}{y} \end{pmatrix}

  • 正交分解定理

    y^=u1yu1u1u1+u2yu2u2u2++ukyukukuk\hat{y}=\frac{u_1 y}{u_1 u_1}u_1+\frac{u_2 y}{u_2 u_2}u_2+\cdots+\frac{u_k y}{u_k u_k}u_k

  • b2b_2的推导

    X1X1b1+X1X2b2=X1YX2X1b1+X2X2b2=X2Yb1=(X1X1)1X1Y(X1X1)1X1X2b2=(X1X1)1X1(YX2b2)X2X1(X1X1)1X1YX2X1(X1X1)1X1X2b2+X2X2b2=X2Yb2=[X2X2X2X1(X1X1)1X1X2]1(X2YX2X1(X1X1)1X1Y)=[X2(IX1(X1X1)1X1)X2]1(X2(IX1(X1X1)1X1)Y)=(X2M1X2)1(X2M1Y)Define:X2×=M1X2Y×=M1YAndb2=(X2×X2×)1(X2×Y)X_1{'}X_1 b_1+X_1{'}X_2b_2=X_1{'}Y\\ X_2{'}X_1 b_1+X_2{'}X_2b_2=X_2{'}Y\\ \ \\ b_1=(X_1{'}X_1)^{-1}X_1{'}Y-(X_1{'}X_1)^{-1}X_1{'}X_2{'}b_2=(X_1{'}X_1)^{-1}X_1{'}(Y-X_2b_2)\\ \ \\ X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}Y-X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}X_2b_2+X_2{'}X_2b_2=X_2{'}Y\\ \ \\ \begin{aligned} \therefore\ b_2&=[X_2{'}X_2-X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}X_2]^{-1}\cdot (X_2{'}Y-X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}Y)\\ &=[X_2{'}(I-X_1(X_1{'}X_1)^{-1}X_1{'})X_2]^{-1}\cdot (X_2{'}(I-X_1(X_1{'}X_1)^{-1}X_1{'})Y)\\ &=(X_2{'}M_1X_2)^{-1}(X_2M_1Y) \end{aligned} \\ \ \ \\ \begin{aligned} &Define:\\&X_2^{*}=M_1X_2 \\&Y^{*}=M_1Y \\ And\ \ &b_2=(X_2^{*}{'}X_2^{*})^{-1}(X_2^{*}Y) \end{aligned}

# 3. OLS估计量的性质的证明

# 3.1 无偏性 E(β^)=βE(\hat{\beta})=\beta

​证明:

  • β^=(XX)1XY=(XX)1X(Xβ+u)=β+(XX)1Xu\hat{\beta}=(X'X)^{-1}X'Y=(X'X)^{-1}X'(X\beta+u)=\beta+(X'X)^{-1}X'u

  • E(β^)=β+(XX)1XE(u)=β+(XX)1XEXE(uX)=βE(\hat{\beta})=\beta+(X'X)^{-1}X'E(u)=\beta+(X'X)^{-1}X'E_XE(u|X)=\beta

一阶矩假定:E(u)=EX(E(uX))=0E(uX)=0Cov(X,u)=0E(u)=E_X(E(u|X))=0\leftarrow E(u|X)=0\rightarrow Cov(X,u)=0

  • 证明:

    Cov(X,u)=E(Xu)E(X)E(u)=E(Xu)=EX(XE(uX))=0 \begin{aligned} Cov(X,u)&=E(Xu)-E(X)E(u)\\ &=E(Xu)\\ &=E_X(XE(u|X))\\ &=0 \end{aligned}

二阶矩假定(球形扰动项)【与无偏性无关】:Var(u)=σ2IVar(u)=\sigma^2I OR Var(Y)=σ2IVar(Y)=\sigma^2I

Var(β^)=Var(β+(XX)1Xu)=Var((XX)1Xu)=(XX)1XVar(u)X(XX)1=σ2(XX)1\begin{aligned} Var(\hat{\beta})&=Var(\beta+(X'X)^{-1}X'u)\\ &=Var((X'X)^{-1}X'u)\\ &=(X'X)^{-1}X'Var(u)X(X'X)^{-1}\\ &=\sigma^2(X'X)^{-1} \end{aligned}

# 3.2 一致性

Pr(β^nβ>ε)0asnPr(|\hat{\beta}_n-\beta|>\varepsilon)\rightarrow0 \ \ as\ \ n\rightarrow\infty \\

  • 证明:

    β^nβ=(XX)1Xu=[1ni=1nxixi]1[1ni=1nxiui]PE(xixi)1E(xiui)\hat{\beta}_n-\beta=(X'X)^{-1}X'u=[\frac{1}{n}\sum_{i=1}^n x_i x_i']^{-1}[\frac{1}{n}\sum_{i=1}^n x_i u_i]\stackrel{P}\longrightarrow E(x_ix_i')^{-1}E(x_iu_i)

  • 注意:这里未用二阶矩!也就是说异方差、自相关问题并不影响一致性!

# 3.3 另外的讨论:对σ2\sigma^2的无偏估计量σ^2\hat{\sigma}^2

σ^2=u^u^nK\hat{\sigma}^2=\frac{\hat{u}'\hat{u}}{n-K}

  • 证明:

    E(s2X)=E(u^u^nKX)=E(uMunKX)=1nKE(uMuX)E(uMuX)=E(trace(uMuX))=traceE(MuuX)=trace[Mσ2In]=σ2trace(M)=σ2trace(InX(XX)1X)=σ2(nK)E(s2)=EXE(s2X)=σ2\begin{aligned} E(s^2|X)&=E(\frac{\hat{u}'\hat{u}}{n-K}|X)\\&=E(\frac{u'Mu}{n-K}|X)\\ &=\frac{1}{n-K}E(u'Mu|X) \end{aligned}\\ \begin{aligned} \\ \because E(u'Mu|X)&=E(trace(u'Mu|X))\\ &=traceE(Muu'|X)\\ &=trace[M\sigma^2I_n]\\ &=\sigma^2trace(M)\\ &=\sigma^2trace(I_n-X(X'X)^{-1}X')\\ &=\sigma^2(n-K) \end{aligned}\\ \begin{aligned} \therefore E(s^2)&=E_XE(s^2|X)\\ &=\sigma^2 \end{aligned}

# 4. Gauss-Markov Theorem

# 4.1 描述

  • 当一阶矩假定、二阶矩假定都满足的时候,相比于其他线性无偏估计量,OLS估计量是最有效的。

# 4.2 Classical Linear Regression Model (CLRM) Assumptions

  1. 线性(关于β\beta)
  2. 解释变量随机选取
  3. 不存在严格多重共线性,即XX满列秩:rank(X)=krank(X)=k
  4. 一阶矩假定:自变量外生性要求
    • 小样本OLS(严格外生性假定): E(uiX)=0E(u_i|X)=0, 意味着$Cov(u_i,x_{jk})=0\ \forall j,k $
    • 大样本OLS (放松的假定——同期不相关假定): E(uiX)=cE(u_i|X)=c, E(ui)=Ex(uiX)=Ex(c)=0E(u_i)=E_x(u_i|X)=E_x(c)=0
  5. 二阶矩假定:球形扰动项 【违背后OLS估计量依旧无偏、一致,但就不是BLUE了】

Var(uiX)=σ2Var(u_i|X)=\sigma^2

Var(uiX)=E(uuX)=(σ2000σ2000σ2)=σ2I\begin{aligned} Var(u_i|X)&=E(uu'|X) \\ &=\begin{pmatrix} \sigma^2 &0 &\cdots &0 \\ 0 &\sigma^2 &\cdots &0 \\ \vdots&\vdots&\ddots&\vdots \\ 0 &0 &\cdots &\sigma^2 \end{pmatrix} \\ &=\sigma^2I \end{aligned}

  • 注意:正态性假设并非CLRM假定之一,但对于小样本OLS的假设检验很关键

# 4.3 Gauss-Markov定理的证明

  • 假设:β^\hat{\beta}为任一线性无偏估计

  • 需证明:Var(bX)Var(β^X)Var(b|X)\leq Var(\hat{\beta}|X)

    由于线性假定,故有β^=Ck×ny\hat \beta=C_{k\times n}y

    b=Ay,A=(XX)1XDefineDCAβ^=Cy=(A+D)y=D(Xβ+u)+b=DXβ+Du+bβ=E(β^X)=E(DXβ+Du+bX)=DXβ+βDX=0β^=Du+bβ^β=(D+A)uVar(β^X)=Var(β^βX)=Var((D+A)uX)=(D+A)Var(uX)(D+A)=σ2(D+A)(D+A)=σ2(DD+(XX)1)Var(β^X)Var(bX)=σ2DDNotice:DD是半正定矩阵!!!\begin{aligned} &\because\ b=Ay, \ A=(X'X)^{-1}X'\\\ \\ &Define\ D\equiv C-A\\ \ \\ &\therefore\ \hat \beta=Cy=(A+D)y=D(X\beta+u)+b=DX\beta+Du+b\\ &\therefore\ \beta=E(\hat \beta |X)=E(DX\beta+Du+b|X)=DX\beta+\beta \\ &\therefore\ DX=0 \\ &\therefore\ \hat \beta=Du+b \\ &\therefore\ \hat{\beta}-\beta=(D+A)u \\ &\therefore\ Var(\hat{\beta}|X)=Var(\hat{\beta}-\beta|X)=Var((D+A)u|X)\\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =(D+A)Var(u|X)(D+A)' \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sigma^2(D+A)(D'+A')\\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sigma^2(DD'+(X'X)^{-1})\\ &\therefore\ Var(\hat{\beta}|X)-Var(b|X)=\sigma^2DD' \\ \ \\&Notice: DD'是半正定矩阵!!! \end{aligned}

# 5. R2R^2拟合优度:相关的讨论

# 5.1 残差平方和的另一二次型表示

ee=YMMY=YMY=Ye=eYe'e=Y'M'MY=Y'MY=Y'e=e'Y \\ \ \\

# 5.2 与均值相关的等幂矩阵M0M^0

x=(x1x2xn)xˉ=1nixixˉ=i1nix=(xˉxˉxˉ)=1niix(x1xˉx2xˉxnxˉ)=[xixˉ]=[x1niix][x1niix]=[I1nii]x=M0xM0=I1niiM0i=0x=\begin{pmatrix} x_1 \\ x_2 \\ \vdots\\ x_n\end{pmatrix} \\ \ \\ \bar{x}=\frac{1}{n}i'x\\ \ \\ i\bar{x}=i\frac{1}{n}i'x=\begin{pmatrix} \bar{x} \\ \bar{x} \\ \vdots\\ \bar{x}\end{pmatrix} =\frac{1}{n}ii'x\\ \ \\ \therefore\ \begin{pmatrix} x_1-\bar{x}\\ x_2-\bar{x} \\ \vdots\\ x_n-\bar{x}\end{pmatrix} =[x-i\bar{x}]=[x-\frac{1}{n}ii'x]\\ \ \\ \ [x-\frac{1}{n}ii'x]=[I-\frac{1}{n}ii']x=M^0x \\ \ \\ M^0=I-\frac{1}{n}ii' \\ \ \\ M^0i=0

# 5.3 均值离差和

i=1n(xixˉ)=i[M0x]=0x=0\sum_{i=1}^{n}(x_i-\bar{x})=i'[M^0x]=0'x=0

# 5.4 均值的离差平方和

i=1n(xixˉ)2=i=1nxi2nxˉ2=(xxˉ)(xxˉ)=(M0x)(M0x)=xM0M0x=xM0x\begin{aligned} \sum_{i=1}^{n}(x_i-\bar{x})^2&=\sum_{i=1}^{n}x_i^2-n\bar{x}^2\\ &=(x-\bar{x})'(x-\bar{x})\\ &=(M^0x)'(M^0x)\\ &=x'M^{0}{'}M^0x \\ &=x'M^0x \end{aligned}

总结:(i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)i=1n(yiyˉ)(xixˉ)i=1n(yiyˉ)2)=(xM0xxM0yyM0xyM0y)总结:\\ \begin{pmatrix} \sum_{i=1}^{n}(x_i-\bar{x})^2 &\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\\ \sum_{i=1}^{n}(y_i-\bar{y})(x_i-\bar{x}) &\sum_{i=1}^{n}(y_i-\bar{y})^2 \end{pmatrix}= \begin{pmatrix} x'M^0x &x'M^0y\\ y'M^0x &y'M^0y \end{pmatrix}

# 5.5 R2R^2推导

yiyˉ=y^iyˉ+eiM0y=M0Xb+M0eeM0X=eX=0yM0y=(Xb)M0Xb+ee=y^M0y^+eeSST=SSE+SSR第一种表示方式:R2=SSESST=(Xb)M0XbyM0y=1SSRSST=1eeyM0ye=Mxy=Mxuee=uMxu第二种表示方式:R2=1uMxuyM0y(Xb)M0Xb=y^M0y^y^=Xb,y=y^+e,M0e=e,Xe=0y^M0y^=y^M0(ye)=y^M0yy^M0e=y^M0y第三种表示方式:R2=y^M0y^yM0y=y^M0yyM0yy^M0yy^M0y^=[(y^iyˉ)(yiyˉ)]2(yiyˉ)2(y^iyˉ)2\begin{aligned} &\because\ y_i-\bar{y}=\hat{y}_i-\bar{y}+e_i\\ &\therefore\ M^0y=M^0Xb+M^0e \\ &\because\ e'M^0X=e'X=0\\ &\because\ y'M^0y=(Xb)'M^0Xb+e'e=\hat{y}M^0\hat{y}+e'e\\ &\therefore\ SST=SSE+SSR \\ \ \\ &第一种表示方式:R^2=\frac{SSE}{SST}=\frac{(Xb)'M^0Xb}{y'M^0y}=1-\frac{SSR}{SST}=1-\frac{e'e}{y'M^0y}\\ \ \\ \ \\ &\because\ e=M_x y=M_x u \\ &\therefore\ e'e=u'M_xu \\ \ \\ &第二种表示方式: R^2=1-\frac{u'M_xu}{y'M^0y} \\ \ \\ \ \\ \ \\ &\because\ (Xb)'M^0Xb=\hat{y}'M^0\hat{y}\\ &\hat{y}=Xb,y=\hat{y}+e,M^0e=e,X'e=0 \\ &\therefore\ \hat{y}'M^0\hat{y}=\hat{y}'M^0(y-e)=\hat{y}'M^0y-\hat{y}'M^0e=\hat{y}'M^0y \\ \\ \ &第三种表示方式:R^2=\frac{\hat{y}'M^0\hat{y}}{y'M^0y}= \frac{\hat{y}'M^0y}{y'M^0y}\cdot \frac{\hat{y}'M^0y}{\hat{y}'M^0\hat{y}}=\frac{[\sum(\hat{y}_i-\bar{y})(y_i-\bar{y})]^2}{\sum(y_i-\bar{y})^2 \sum(\hat{y}_i-\bar{y})^2} \end{aligned}

# 5.6 Adjusted R2R^2

Rˉ2=1ee/(nK)yM0y/(n1)=1n1nK(1R2)\bar{R}^2=1-\frac{e'e/(n-K)}{y'M^0y/(n-1)}=1-\frac{n-1}{n-K}(1-R^2)

  • 定理:在一个多元回归中,若一个回归变量XXtt值大于1,将这个变量去掉将导致Rˉ2\bar{R}^2减小
    • 证明:

      RK2为全变量回归后的拟合优度;R12为省略xK后的拟合优度R_K^2为全变量回归后的拟合优度;R_1^2为省略x_K后的拟合优度

      RK2=1eeyM0yR12=1e1e1yM0yRˉK2=1n1nK(1RK2)Rˉ12=1n1nK+1(1R12)RˉK2Rˉ12=n1nK+1e1e1yM0yn1nKeeyM0y\begin{aligned} &R_K^2=1-\frac{e'e}{y'M^0y}\\ &R_1^2=1-\frac{e_1{'}e_{1}}{y'M^0y} \\ &\bar{R}_K^2=1-\frac{n-1}{n-K}(1-R_K^2)\\ &\bar{R}_1^2=1-\frac{n-1}{n-K+1}(1-R_1^2)\\ &\bar{R}_K^2-\bar{R}_1^2=\frac{n-1}{n-K+1}\frac{e_1{'}e_{1}}{y'M^0y}-\frac{n-1}{n-K}\frac{e'e}{y'M^0y} \end{aligned}

      若剔除一个解释变量后调整R2R^2变小,RˉK2Rˉ12>0\bar{R}_K^2-\bar{R}_1^2>0, 即要求(nK)e1e1>(nK+1)ee(n-K)e_1'e_1>(n-K+1)e'e, 又因为:

      e1e1=ee+bK2(XKM1XK)ee=(nK)s2bK2(XKM1XK)>1定理得证。e_1'e_1=e'e+b_K^2(X_K'M^1X_K)\\ e'e=(n-K)s^2\\ \therefore b_K^2(X_K'M^1X_K)>1\\ 定理得证。

    • 补充:为什么e1e1=ee+bK2(XKM1XK)e_1'e_1=e'e+b_K^2(X_K'M^1X_K)?

      参见“偏回归”一章,这也说明了为何增加解释变量后$R^2$只增不减。
      

# 5.7 证明SST=SSR+SSESST=SSR+SSE:标量形式

证明:(yiyˉ)2=(y^iyˉ)2+ei2\sum(y_i-\bar y)^2=\sum(\hat{y}_i-\bar{y})^2+\sum e_i^2

(yiyˉ)2=(yiy^i+y^iyˉ)2=(yiy^)2+(y^iyˉ)2+2(yiy^i)(y^iyˉ)=(yiy^)2+(y^iyˉ)2+2(yiy^i)(a+bxiyˉ)=(yiy^)2+(y^iyˉ)2+2[(yiy^i)(ayˉ)+b(yiy^i)xi]=(yiy^)2+(y^iyˉ)2+2[(yiabxi)(ayˉ)+b(yiabxi)xi]=(yiy^)2+(y^iyˉ)2=(y^iyˉ)2+ei2\begin{aligned} \sum(y_i-\bar y)^2&=\sum(y_i-\hat{y}_i+\hat{y}_i-\bar y)^2 \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2\sum(y_i-\hat{y}_i)(\hat{y}_i-\bar{y}) \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2\sum(y_i-\hat{y}_i)(a+bx_i-\bar{y}) \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2[\sum(y_i-\hat{y}_i)(a-\bar{y})+b\sum(y_i-\hat{y}_i)x_i] \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2[\sum(y_i-a-bx_i)(a-\bar{y})+b\sum(y_i-a-bx_i)x_i] \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2 \\&=\sum(\hat{y}_i-\bar{y})^2+\sum e_i^2 \end{aligned}

# 5.8 对单个系数的t检验

  • tt统计量的分布

    tkbkβkˉSE(bk)bkβkˉs2(XX)kk1t(nK)t_k\equiv\frac{b_k-\bar{\beta_{k}}}{SE(b_k)}\equiv\frac{b_k-\bar{\beta_{k}}}{\sqrt{s^2(X'X)_{kk}^{-1}}}\sim t(n-K)

  • 第一类错误vs第二类错误

    • 第一类错误:P(rejectH0H0)P(reject\ H_0|H_0)
    • 第二类错误:P(acceptH0H1)P(accept\ H_0|H_1)
      • 1P(acceptH0H1)1-P(accept\ H_0|H_1):统计检验的效能/势(power)

# 5.9 对线性假设的F检验

  • 检验的原假设H0:Rβ=rH_0:R\beta=r

  • F统计量的分布

    F(Rbr)[R(XX)1R]1(Rbr)/ms2F(m,nK)F\equiv\frac{(Rb-r)'[R(X'X)^{-1}R']^{-1}(Rb-r)/m}{s^2}\sim F(m,n-K)

# 5.10 F统计量的似然比原理表达式

F=(e×e×ee)/mee/(nK)F=\frac{(e^*{'}e^*-e'e)/m}{e'e/(n-K)}

# 5.11 预测

  • 预测点的精确值

    y0=x0β+ε0y_0=x_0^{'}\beta+\varepsilon_0

  • 预测误差

    y^0y0=x0(bβ)ε0\hat{y}_0-y_0=x_0^{'}(b-\beta)-\varepsilon_0

  • 预测误差的方差

    Var(y^0y0)=Var(ε0)+Var[x0(bβ)]=σ2y0本身的不确定性+σ2x0(XX)1x0抽样误差Var(\hat{y}_0-y_0)=Var(\varepsilon_0)+Var[x_0'(b-\beta)]=\underbrace{\sigma^2}_{y_0本身的不确定性}+\underbrace{\sigma^2x_0'(X'X)^{-1}x_0}_{抽样误差}

  • 扰动项服从正态分布 y^0y0N(0,σ2+σ2x0(XX)1x0)\hat{y}_0-y_0\sim N(0,\sigma^2+\sigma^2x_0'(X'X)^{-1}x_0)

    • σ2\sigma^2未知

y^0y0s1+x0(XX)1x0t(nK)\frac{\hat{y}_0-y_0}{s\sqrt{1+x_0'(X'X)^{-1}x_0}}\sim t(n-K)

# 六、大样本OLS:渐进性质

# 1. 多重共线性&解决方式之一:增大样本量

# 1.1 概念:完全与非完全

  • Perfect multicollinearity - "Dummy variable trap"- X'X不可逆

  • Imperfect multicollinearity - "model specification problem"- SE(β^OLS)SE(\hat{\beta}_{OLS})过高导致数据不显著。数据稍一变,估计值就会大变。

    • 但此时OLS依旧是BLUE!

# 1.2 诊断方式

  • XXX'X是否满秩?
    • 否,完全多重共线性
      • R2R^2FF高,但单个变量很少会显著
      • 解释变量的高相关性:用xjx_j{x1,x2,...xk}\{x_1,x_2,...x_k\}进行回归,发现Rj2R_j^2较高
        • Var(β^kX)=σ2(1Rk2)SkVar(\hat{\beta}_k|X)=\frac{\sigma^2}{(1-R_k^2)S_k}, Sk=i=1n(xikxˉk)2S_k=\sum_{i=1}^n (x_{ik}-\bar{x}_k)^2
        • 方差膨胀因子:VIFk=11Rk2VIF_k=\frac{1}{1-R_k^2}, 原则上 max{VIF1,VIF2,...,VIFk}10max\{VIF_1, VIF_2,...,VIF_k\}\leq 10

# 1.3 Remedies

  • 最优方法:如果可能,增加样本观测量(more data)
  • 扔掉一个变量(但有可能导致遗漏变量偏差)
  • 标准化:x~xxˉSx\tilde{x}\equiv \frac{x-\bar{x}}{S_x}

# 2. 为何需要大样本理论?

  • 小样本理论的假设过强
    • 小样本理论要求严格外生性Cov(ui,xjk)=0j,kCov(u_i,x_{jk})=0\ \forall j,k
    • 但对于AR(1)AR(1)而言,这意味着解释变量与扰动项的过去、现在、未来全部正交
      • yt=ρyt1+εt,(t=1,2,...,T)y_t=\rho y_{t-1}+\varepsilon_t,\ (t=1,2,...,T)
      • 严格外生性要求,Cov(yt1,εi)(i=1,2,...,T)Cov(y_{t-1},\varepsilon_i)\ (i=1,2,...,T), 但是,Cov(yt,εt)=Cov(ρyt1+εt,εt)=Var(εt)>0Cov(y_t,\varepsilon_t)=Cov(\rho y_{t-1}+\varepsilon_t,\varepsilon_t)=Var(\varepsilon_t)>0
      • 大样本仅要求解释变量和同期的扰动项不相关,Cov(yt1,εt)=0Cov(y_{t-1},\varepsilon_t)=0
  • 扰动项服从正态分布的假设过强
    • 大样本不需假设分布,而是使用CLT得到渐进正态
  • 统计量的精确分布难以推导
  • Notice: 大样本理论的缺陷
    • 通常认为n30,通常100以上n\geq30,通常100以上

# 3. 随机收敛

# 3.1 依概率收敛

{xn}n=1={x1,x2,x3,...}\{x_n\}_{n=1}^\infty=\{x_1,x_2,x_3,...\} 依概率收敛于常数a

plimxn=aplim\ x_n=a, xnPax_n\stackrel{P}\longrightarrow a

若对于任意ε>0\varepsilon>0, 当nn\rightarrow\infty时,都有limP(xna>ε)=0limP(|x_n-a|>\varepsilon)=0

  • 随机变量间的收敛

    • xnPxx_n\stackrel{P}\longrightarrow x if {xnx}n=1\{x_n-x\}_{n=1}^{\infty}依概率收敛到0
  • 随机向量间的收敛

    • plimxn=xplim\ \vec{x_n}=\vec{x}

# 3.2 依均方收敛

  • limE(xn)=alimE(x_n)=a

    • E(x1),E(x2),...,E(xn)aE(x_1),E(x_2),...,E(x_n)\rightarrow a
  • limVar(xn)=0limVar(x_n)=0

    • Var(x1),Var(x2),...,Var(xn)0Var(x_1),Var(x_2),...,Var(x_n)\rightarrow 0
  • 证明:依均方收敛——>以概率收敛

    • P(xnE(xn)ε)Var(xn)ε2limnP(xnE(xn)ε)limnVar(xn)ε2=0P(|x_n-E(x_n)|\geq\varepsilon)\leq\frac{Var(x_n)}{\varepsilon^2}\\ \mathop{lim}_{n\rightarrow\infty}P(|x_n-E(x_n)|\geq\varepsilon)\leq\mathop{lim}_{n\rightarrow\infty}\frac{Var(x_n)}{\varepsilon^2}=0

# 3.3 依分布收敛

{xn}n=1\{x_n\}_{n=1}^{\infty}与随机变量x的累积分布函数分别记为Fn(x)F_n(x)F(x)F(x)

if $ \forall x,都有, 都有limF_n(x)=F(x),则称, 则称x_n\stackrel{d}\longrightarrow x,并称x, 并称x为{x_n}$的渐进分布

  • 例如:t分布的渐进分布是正态分布
    • t(k)dN(0,1)t(k)\stackrel{d}\longrightarrow N(0,1)

# 3.4 渐进正态:定义

ifxndx,xNormal(),则称xn为渐进正态if\ x_n\stackrel{d}\longrightarrow x, 且x\sim Normal(),则称x_n为渐进正态

  • 定理:

    xndxx_n\stackrel{d}\longrightarrow x, 且g()g(\cdot)是连续函数,则gn(x)g_n(x)的渐进分布就是g(x)g(x), 即gn(x)dg(x)g_n(x)\stackrel{d}\longrightarrow g(x)

# 3.5 各随机收敛的关系

依均方收敛依概率收敛依分布收敛依均方收敛\rightarrow依概率收敛\rightarrow 依分布收敛

# 4. 大样本理论的工具:大数定律&CLT

# 4.1 大数定律

【强大数定律:依均方收敛】当样本容量nn很大时,样本均值趋于总体均值。

【切比雪夫大数定律:依概率收敛】

# 4.2 中心极限定理(CLT)

不管{xn}n=1\{x_n\}_{n=1}^{\infty}具体分布,当nn\rightarrow\infty时,样本均值xnˉ\bar{x_n}的渐进分布都是正态分布【但必须是iid】

xˉnμσ2ndN(0,1)xˉndN(μ,σ2/n)变形:σ(xˉnμσ2n)dσN(0,1)xˉnμ1ndN(0,σ2)RootnConvergence:n(xˉnμ)dN(0,σ2)\frac{\bar{x}_n-\mu}{\sqrt{\frac{\sigma^2}{n}}}\stackrel{d}\longrightarrow N(0,1)\Rightarrow \bar{x}_n \stackrel{d}\longrightarrow N(\mu, \sigma^2/n)\\ 变形:\\ \sigma(\frac{\bar{x}_n-\mu}{\sqrt{\frac{\sigma^2}{n}}})\stackrel{d}\longrightarrow \sigma N(0,1)\\ \frac{\bar{x}_n-\mu}{\sqrt{\frac{1}{n}}}\stackrel{d}\longrightarrow N(0,\sigma^2)\\ Root-n\ Convergence:\ \sqrt{n}(\bar{x}_n-\mu)\stackrel{d}\longrightarrow N(0,\sigma^2)

  • xˉnμ\bar{x}_n-\mu趋向0的速度大约为: 11,12,...,1n\frac{1}{\sqrt{1}}, \frac{1}{\sqrt{2}},..., \frac{1}{\sqrt{n}}

  • 推广到多维的中心极限定理

    n(xˉnμ)dN(0,Σ)\sqrt{n}(\vec{\bar{x}_n}-\vec{\mu})\stackrel{d}\longrightarrow N(\vec{0}, \Sigma)

# 5. 统计量的大样本性质

# 5.1 一致估计量

plimβ^n=β[依概率收敛]plim\ \hat{\beta}_n=\beta\ [依概率收敛]

# 5.2 渐进正态与渐近方差

n(β^nβ)dN(0,Σ)\sqrt{n}(\hat{\beta}_n-\beta)\stackrel{d}\longrightarrow N(0,\Sigma)

  • σ2\sigma^2为渐近方差,记为Avar(β^n)Avar(\hat{\beta}_n)

# 5.3 渐进有效性

Avar(β^n)<Avar(β~n)Avar(\hat{\beta}_n)<Avar(\tilde{\beta}_n), 则称β^n\hat{\beta}_nβ~n\tilde{\beta}_n更为渐进有效

# 5.4 均方误差

MSE(β^)E[(β^β)2]MSE(\hat{\beta})\equiv E[(\hat{\beta}-\beta)^2]

  • 证明:MSE(β^)=Var(β^)+[Bias(β^)]2MSE(\hat{\beta})=Var(\hat{\beta})+[Bias(\hat{\beta})]^2

    MSE(β^)E[(β^β)2]=E[(β^E(β^)+E(β^)β)2]=Var(β^)+[Bias(β^)]2MSE(\hat{\beta})\equiv E[(\hat{\beta}-\beta)^2]=E[(\hat{\beta}-E(\hat{\beta})+E(\hat{\beta})-\beta)^2]=Var(\hat{\beta})+[Bias(\hat{\beta})]^2

  • 多维形式:MSE(β^)=E[(β^β)(β^β)]=Var(β^)+[Bias(β^)][Bias(β^)]MSE(\hat{\beta})=E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)']=Var(\hat{\beta})+[Bias(\hat{\beta})][Bias(\hat{\beta})]'

# 6. 大样本OLS假定

  • 假定1:线性假定

  • 假定2:K+1)(K+1)维随机过程{yi,xi1,...,xik}\{y_i,x_{i1},...,x_{ik}\}渐进独立平稳,故适用大数定律与CLT

  • 假定3:同期外生性 E(xikui)=0,i,kE(x_{ik }u_i)=0,\forall i,k

  • 假定4:秩条件:X满列秩

  • 假定5:定义如下向量——

    gi=xiεi=(xi1xi2xiK)εig_i=x_i\varepsilon_i=\begin{pmatrix}x_{i1}\\x_{i2}\\ \vdots\ \\ x_{iK} \end{pmatrix}\varepsilon_i

    gig_i为鞅差分序列,且其协方差矩阵S=E[gigi]=E(εi2xixi)S=E[g_ig_i']=E(\varepsilon_i^2x_ix_i')为非退化矩阵

Notice:无需假定 严格外生 与 正态随机扰动项!

  • 假定6:解释变量的四阶矩存在——E[(xikxij)2]E[(x_{ik}x_{ij})^2]存在且为有限i,j,k(\forall i,j,k)

# 7. OLS的大样本性质

由于X=(x1x2xn)X=\begin{pmatrix}x_1'\\x_2'\\ \vdots \\x_n'\end{pmatrix},故XX=(x1x2xn)(x1x2xn)=i=1n[xixi]K×KX'X=\begin{pmatrix}x_1&x_2& \cdots &x_n\end{pmatrix}\begin{pmatrix}x_1'\\x_2'\\ \vdots \\x_n'\end{pmatrix}=\sum_{i=1}^n[x_ix_i']_{K\times K}

定义SXX=1nXX=1nxixiS_{XX}=\frac{1}{n}X'X=\sum\frac{1}{n}x_ix_i'

另一方面,Xy=(x1x2xn)(y1y2yn)=i=1nxiyiX'y=\begin{pmatrix}x_1&x_2& \cdots &x_n\end{pmatrix}\begin{pmatrix}y_1\\y_2\\ \vdots \\y_n\end{pmatrix}=\sum_{i=1}^nx_iy_i

b=(XX)1Xy=SXX1SXY\therefore\ b=(X'X)^{-1}X'y=S_{XX}^{-1}S_{XY}

  • 性质一:β^\hat{\beta}一致估计量 plimβ^n=βplim\ \hat{\beta}_n=\beta

  • 性质二:β^\hat{\beta}服从渐进正态分布 (为进行统计推断)

    n(β^nβ)dN(0,Avar(β^))\sqrt{n}(\hat{\beta}_n-\beta)\stackrel{d}\longrightarrow N(0,Avar(\hat{\beta}))

    Var(β^X)=(XX)1XVar(uX)X(XX)1Var(\hat{\beta}|X)=(X'X)^{-1}X'Var(u|X)X(X'X)^{-1}

Avar(β^)=[E(xixi)]1S[E(xixi)]1Avar(\hat{\beta})=[E(x_ix_i')]^{-1}S[E(x_ix_i')]^{-1}, 其中SE(gigi)=E(εi2xixi)S\equiv E(g_ig_i')=E(\varepsilon_i^2 x_ix_i')

  • 我们讨论下扰动项的协方差矩阵Var(uX)Var(u|X):异方差与自相关问题

  • 性质三:假设S^\hat SSS的一致估计量,则SXX1S^SXX1S_{XX}^{-1}\hat S S_{XX}^{-1}Avar(β^)Avar(\hat{\beta})的一致估计量

证明:大样本下s2s^2是无条件方差E(εi2)=σ2E(\varepsilon_i^2)=\sigma^2的一致估计量

s2eenK=εMεnK=ε[InX(XX)1X]εnK=1nK[εεεX(XX)1Xε]=nnK[εεnεX(XX)1Xεn]=nnK[1nεi2gˉSXX1gˉ]nσ2\begin{aligned} s^2&\equiv \frac{e'e}{n-K}=\frac{\varepsilon'M\varepsilon}{n-K}=\frac{\varepsilon'[I_n-X(X'X)^{-1}X']\varepsilon}{n-K}\\ &=\frac{1}{n-K}[\varepsilon'\varepsilon-\varepsilon'X(X'X)^{-1}X'\varepsilon]\\ &=\frac{n}{n-K}[\frac{\varepsilon'\varepsilon}{n}-\frac{\varepsilon'X(X'X)^{-1}X'\varepsilon}{n}]\\ &=\frac{n}{n-K}[\frac{1}{n}\sum\varepsilon_i^2-\bar{g}S_{XX}^{-1}\bar{g}]\\ &\mathop{\longrightarrow}_{n\rightarrow \infty}\sigma^2 \end{aligned}

# 8. 线性假设的大样本检验

# 8.1 检验单个系数:H0:βk=βˉkH_0:\beta_k=\bar{\beta}_k

tk=n(bkβˉk)Avar^(bk)=bkβˉk1nAvar^(bk)bkβkˉSE×(bk)dN(0,1)t_k=\frac{\sqrt{n}(b_k-\bar{\beta}_k)}{\sqrt{\widehat{Avar}(b_k)}}=\frac{b_k-\bar{\beta}_k}{\sqrt{\frac{1}{n}\widehat{Avar}(b_k)}}\equiv\frac{b_k-\bar{\beta_k}}{SE^*(b_k)}\stackrel{d}\longrightarrow N(0,1)

SE×(bk)1nAvar^(bk)=1n(SXX1S^SXX1)kk{SE^*(b_k)}\equiv \sqrt{\frac{1}{n}\widehat{Avar}(b_k)}=\sqrt{\frac{1}{n}(S_{XX}^{-1}\hat{S}S_{XX}^{-1})_{kk}}

异方差稳健的标准误

  • 统计量tkt_k服从标准正态分布,而不是t分布!!!

命题:在同方差的假定下,稳健标准误还原为普通标准误

证明:条件同方差意味着E(εi2xi)=σ2>0E(\varepsilon_i^2|x_i)=\sigma^2>0,根据期望迭代定律:

SE(xixiεi2)=ExiE(xixiεi2xi)=Exi[xixiE(εi2xi)]=σ2E(xixi)s2pσ2,SXXpE(xixi)s2SXXS的一致估计量Avar^(b)=SXX1(s2SXX)SXX1=ns2(XX)1SE×(bk)=1nAvar^(bk)=1nns2(XX)kk1=s2(XX)kk1S\equiv E(x_ix_i'\varepsilon_i^2)=E_{x_i}E(x_ix_i'\varepsilon_i^2|x_i)=E_{x_i}[x_ix_i'E(\varepsilon_i^2|x_i)]=\sigma^2E(x_ix_i')\\ \begin{aligned} \because& s^2\stackrel{p}\longrightarrow \sigma^2, S_{XX}\stackrel{p}\longrightarrow E(x_ix_i')\\ \therefore&\ s^2S_{XX}\text{是}S\text{的一致估计量} \\ \therefore&\ \widehat{Avar}(b)=S_{XX}^{-1}(s^2S_{XX})S_{XX}^{-1}=ns^2(X'X)^{-1} \\ \therefore&\ SE^*(b_k)=\sqrt{\frac{1}{n}\widehat{Avar}(b_k)}=\sqrt{\frac{1}{n}ns^2(X'X)_{kk}^{-1}}=\sqrt{s^2(X'X)_{kk}^{-1}} \end{aligned}

# 8.2 检验线性假设:H0:Rβ=rH_0: R\beta=r,其中RR满行秩

W[n(Rbr)][RAvar^(b)R]1[n(Rbr)]dχ2(m)W\equiv [\sqrt{n}(Rb-r)]'[R \widehat{Avar}(b)R']^{-1}[\sqrt{n}(Rb-r)]\stackrel{d}\longrightarrow \chi^2(m)

# 七、对二阶矩的破坏:异方差与自相关问题

# 1. 异方差问题

# 1.1 问题起源

Var(uX)Σ=(σ12000σ22000000σn2)Var(u|X)\equiv\Sigma=\begin{pmatrix}\sigma_1^2 &0 &\cdots &0\\ 0 &\sigma_2^2 &\cdots &0 \\ 0 &0 &\ddots &0\\ 0 &0 &\cdots &\sigma_n^2\end{pmatrix}

  • 当高的X值是高的Y值的必要不充分条件时,可能存在异方差

  • 经典的异方差问题:Grouped data

    Var(ug)=Var(1Ngiugi)=1Ngσ2Var(u_g)=Var(\frac{1}{N_g}\sum_{i}u_{gi})=\frac{1}{N_{g}}\sigma^2

# 1.2 异方差的后果

Var(u)=Σσ2IVar(β^X)=(XX)1XΣX(XX)1Var(u)=\Sigma\neq\sigma^2I \\ Var(\hat{\beta}|X)=(X'X)^{-1}X'\Sigma X(X'X)^{-1}

  • OLS给出的对于方差Var(u)Var(u)的估计是"downward bias", 就是说比真实的误差方差小,进而会导致“过度拒绝”

# 1.3 如何发现异方差

  • 方法一:残差图

    • 残差eie_i与拟合值y^i\hat{y}_i的散点图
    • 残差eie_i与某个解释变量xikx_{ik}的散点图
  • 方法二:做检验

    • 方式一:Goldfeld-Quandt Test (G-Q Test)

      • 基本思想:If the variances of the errors increase as X increases, we can compare the variances corresponding to the smallest X’s with the variances corresponding to the largest X’s and test whether they are statistically different.
      • 适用场景:其中一个解释变量被认为是导致了异方差的时候
      • 问题:当异方差的形态不是”大的大,小的小“就会出问题
    • 步骤:

      1. Divide the sample observations into three sub-samples (with m1, m2, m3 observations) and omit the middle sample
      2. Estimate with the OLS on the first and third sub-sample; collect the SSR(iduals) for each model, SSR1 and SSR3
      3. The Goldfeld-Quandt test statistic: GQ=SSR3/(m3k)SSR1/(m1k)GQ=\frac{SSR3/(m3−k)}{SSR1/(m1−k)} , where ki s the number of parameters
      4. Under the null hypothesis, GQFm3k,m1kGQ \sim F_{m3−k,m1−k}
    • 方式二:White Test & Breusch Pagan Test

    • BP Test

      • Yi=β0+β1X1+β2X2++βk1Xk1+uiY_i=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_{k-1}X_{k-1}+u_i
        • 辅助回归:ei2=α0+α1X1+α2X2++αk1Xk1+errorie_i^2=\alpha_0+\alpha_1X_1+\alpha_2X_2+\cdots+\alpha_{k-1}X_{k-1}+error_i
        • H0:α1=α2==αk1==0H_0:\alpha_1=\alpha_2=\cdots=\alpha_{k-1}=\cdots=0
        • nR2dχ2(K1)nR^2\stackrel{d}\longrightarrow\chi^2(K-1)
    • White Test

      • 不仅估计了XjX_j,而且估计了Xj2X_j^2XjXjX_jX_{j^{'}}

      • 基本思想:

        • 在同方差的原假设H0:E(εi2X)=σ2H_0:E(\varepsilon_i^2|X)=\sigma^2下,稳健协方差矩阵与普通协方差矩阵之差收敛到一个零矩阵
      • 步骤:

        1. 用OLS估计模型并且得到residuals,eie_i

        2. 作辅助回归:

          ei2=α0+α1x1i+α2x2i(+α3x1i2+α4x2i2+α5x1ix2i)e_i^2=\alpha_0+\alpha_1x_{1i}+\alpha_2x_{2i}(+\alpha_3x_{1i}^2+\alpha_4x_{2i}^2+\alpha_5x_{1i}x_{2i})

        3. LM统计量nR2χ2(q)nR^2\sim \chi^2(q)

          • qq是辅助回归里rergressor的数量

# 1.4 Remedies

  • 方法一:WLS

SSRβ~=i=1nei2vi\mathop{SSR}_{\tilde{\beta}}=\sum_{i=1}^{n}\frac{e_i^2}{v_i}

H=(1/σ10001/σ20000)HY=HXβ+HuY~=HYX~=HXu~=Huβ^WLS=(X~X~)1X~Y~=[(HX)HX]1(HX)(HY)=[XHHX]1XHHY=(XΣ1X)1XΣ1Y=(XΣ1X)1XΣ1(Xβ+u)=β+(XΣ1X)1XΣ1uVar(β^WLS)=Var((XΣ1X)1XΣ1u)=(XΣ1X)1XΣ1Var(u)Σ1X(XΣ1X)1=(XΣ1X)1H=\begin{pmatrix} 1/\sigma_1 &0 &\cdots &0 \\ 0 &1/\sigma_2 &\cdots &0 \\ \vdots &\vdots &\ddots &\vdots\\ 0 &0 &\cdots &0 \end{pmatrix} \\ \ \\ HY=HX\beta+Hu\\ \tilde Y=HY\\ \tilde X=HX\\ \tilde u =Hu \\ \ \\ \begin{aligned} \hat{\beta}_{WLS}&=(\tilde{X}'\tilde{X})^{-1}\tilde{X}'\tilde{Y}\\ &=[(HX)'HX]^{-1}(HX)'(HY)\\ &=[X'H'HX]^{-1}X'H'HY\\ &=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}Y\\ &=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}(X\beta+u)\\ &=\beta+(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}u \end{aligned}\\ \ \\ \begin{aligned} Var(\hat{\beta}_{WLS})&=Var((X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}u)\\ &=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}Var(u)\Sigma^{-1}X(X'\Sigma^{-1}X)^{-1}\\ &=(X'\Sigma^{-1}X)^{-1} \end{aligned}

  • 现实中我们并不知道所有的σi2\sigma_i^2s, 用n个观测值去估计这n个σi2\sigma_i^2s是不可能的

  • 因此背后还是依靠一种理论,比如我们认为解释变量的值越大,误差的方差就会越大

    Yi=β0+β1Xi+uiVar(ui)=σ2Xi2Yi/Xi=β0/Xi+β1+ui/XiVar(ui/Xi)=1Xi2Var(ui)=σ2H=(1/X10001/X20001/Xn)Var(u~)=Var(Hu)=σ2IY_i=\beta_0+\beta_1X_i+u_i \\ Var(u_i)=\sigma^2X_i^2 \\ Y_i/X_i=\beta_0/X_i+\beta_1+u_i/X_i\\ \therefore\ Var(u_i/X_i)=\frac{1}{X_i^2}Var(u_i)=\sigma^2\\ \therefore\ H=\begin{pmatrix}1/X_1 &0 &\cdots &0 \\ 0 &1/X_2 &\cdots &0 \\ \vdots &\vdots &\ddots &\vdots \\ 0 &0 &\cdots &1/X_n\end{pmatrix}\rightarrow Var(\tilde{u})=Var(Hu)=\sigma^2I

  • Grouped Data

    Var(ug)=Var(1Ngiugi)=1Ngσ2H=(N1000N2000Ng)Var(u_g)=Var(\frac{1}{N_g}\sum_{i}u_{gi})=\frac{1}{N_g}\sigma^2\\ H=\begin{pmatrix}\sqrt{N_1} &0 &\cdots &0\\ 0 &\sqrt{N_2} &\cdots &0\\ \vdots &\vdots&\ddots&\vdots\\ 0 &0 &\cdots &\sqrt{N_g} \end{pmatrix}

  • 方法二:Heteroskedasticity-robust standard errors

Varrse(β^OLS)=(XX)1Xdiag(e12,e22,,en2)X(XX)1Var_{rse}(\hat{\beta}_{OLS})=(X'X)^{-1}X'diag(e_1^2,e_2^2,\cdots,e_n^2)X(X'X)^{-1}

  • 这是对Var(β^)Var(\hat{\beta})的一致估计量,而非对Var(u)Var(u)的!!!

  • Varrse(β^OLS)Var_{rse}(\hat{\beta}_{OLS})依旧有downward bias,但大多数情况下比VarCLRM(β^)Var_{CLRM}(\hat{\beta})好一些(高一些)

  • 哪些情况呢?

    • 严重异方差:VarCLRM(β^OLS)Varrse(β^)Var(β^OLS)Var_{CLRM}(\hat{\beta}_{OLS})\leq Var_{rse}(\hat{\beta})\leq Var(\hat{\beta}_{OLS})

    • 只有一点异方差:Varrse(β^OLS)VarCLRM(β^)Var(β^OLS)Var_{rse}(\hat{\beta}_{OLS})\leq Var_{CLRM}(\hat{\beta})\leq Var(\hat{\beta}_{OLS})

    • 最稳健的做法:max[eenK,Varrse(β^OLS)]max[\frac{e'e}{n-K},Var_{rse}(\hat{\beta}_{OLS})]

  • 方法三:GLS更广泛的讨论

Var(εX)=σ2V(X)σ2InVar(\varepsilon|X)=\sigma^2V(X)\neq\sigma^2I_n,其中V(X)V(X)为对称正定矩阵且已知

命题:对于正定矩阵Vn×nV_{n\times n}, 存在非退化矩阵Cn×nC_{n\times n},使得V1=CCV^{-1}=C'C

y=Xβ+εCy=CXβ+Cεy~=X~β+ε~Var(ε~X)=E(ε~ε~X)=σ2CVC=σ2C(CC)1C=σ2CC1(C)1C=σ2Inβ^GLS=(X~X~)1X~y~=[(CX)(CX)]1(CX)Cy=(XV1X)1XV1yy=X\beta+\varepsilon \\ \downarrow \\ Cy=CX\beta+C\varepsilon \\ \downarrow \\ \tilde{y}=\tilde{X}\beta+\tilde{\varepsilon} \\ \downarrow \\Var(\tilde{\varepsilon}|X)=E(\tilde \varepsilon\tilde \varepsilon'|X)=\sigma^2CVC'=\sigma^2C(C'C)^{-1}C'=\sigma^2CC^{-1}(C')^{-1}C'=\sigma^2I_n\\ \downarrow \\ \hat{\beta}_{GLS}=(\tilde{X}'\tilde{X})^{-1}\tilde{X}'\tilde{y}=[(CX)'(CX)]^{-1}(CX)'Cy=(X'V^{-1}X)^{-1}X'V^{-1}y

  • 但是V在实践中不可知!!!

  • 可行GLS (FGLS)

β^FGLS=(XV^1X)1XV^1y\hat{\beta}_{FGLS}=(X'\hat{V}^{-1}X)^{-1}X'\hat{V}^{-1}y

​ 仅有异方差的估计实践:

​ (1)ei2=σ2exp(δ1+δ2xi2++δKxiK)vie_i^2=\sigma^2exp(\delta_1+\delta_2x_{i2}+\cdots+\delta_{K}x_{iK})v_{i}

​ (2)lnei2=(lnσ2+δ1)+δ2xi2++δKxiK+lnvilne_i^2=(ln\sigma^2+\delta_1)+\delta_2x_{i2}+\cdots+\delta_Kx_{iK}+lnv_i得到lnei2lne_i^2的预测值lnσ^i2ln\hat\sigma_i^2

​ (3)σi^2=elnσi^2\hat{\sigma_i}^2=e^{ln\hat{\sigma_i}^2} ,以1/σi^21/\hat{\sigma_i}^2为权重进行WLS估计

# 2. 自相关问题

# 2.1 问题起源

ij,E(εiεjX)0\exists i\neq j, E(\varepsilon_i\varepsilon_j|X)\neq0

# 2.2 序列相关的后果

  • OLS估计量依然无偏并且一致
  • OLS估计量依然服从渐进正态分布
  • t检验、F检验失效
  • 高斯马尔可夫定理不再成立,即OLS不再是BLUE

# 2.3 典例:AR(1)

# 2.4 问题诊断

  • 画图
    • eie_iet1e_{t-1}画成散点图
  • BG检验

yt=β0+β1xt1++βKxtK+εtεt=ρ1εt1++ρpεtp+utH0:ρ1==ρp=0y_t=\beta_0+\beta_1x_{t1}+\cdots+\beta_{K}x_{tK}+\varepsilon_{t}\\ \varepsilon_{t}=\rho_1\varepsilon_{t-1}+\cdots+\rho_{p}\varepsilon_{t-p}+u_{t}\\ H_0:\rho_1=\cdots=\rho_{p}=0

使用辅助回归:etOLSxi1,,xiK,et1,,etp(t=p+1,,n)e_t\stackrel{OLS}\longrightarrow x_{i1},\cdots,x_{iK},e_{t-1},\cdots, e_{t-p}\ (t=p+1,\cdots,n)

(np)R2dχ2(p)(n-p)R^2\stackrel{d}\longrightarrow\chi^2(p)

Davidson-MacKinnon (1993): 保持样本容量为nn, nR2dχ2(p)nR^2\stackrel{d}\longrightarrow\chi^2(p)

  • Q检验

    残差各阶样本自相关系数:

    ρ^jt=j+1netetjt=1net2(j=1,2,,p)\hat{\rho}_j\equiv \frac{\sum_{t=j+1}^{n}e_te_{t-j}}{\sum_{t=1}^ne_t^2}\ (j=1,2,\cdots,p)

    QBPnj=1pρ^j2dχ2(p)QLBn(n+2)j=1pρ^j2njdχ2(p)Q_{BP}\equiv n\sum_{j=1}^{p}\hat{\rho}_j^2\stackrel{d}\longrightarrow\chi^2(p)\\ Q_{LB}\equiv n(n+2)\sum_{j=1}^{p}\frac{\hat{\rho}_j^2}{n-j}\stackrel{d}\longrightarrow\chi^2(p)

    自相关阶数p的确定:p=min{floor(n/2)2,40}p=min\{floor(n/2)-2,40\}

  • DW检验

    • 只能检验AR(1)

      DWdt=2n(etet1)2t=1net222t=2netet1t=1net22(1ρ^1)DW\equiv d \equiv \frac{\sum_{t=2}^n(e_t-e_{t-1})^2}{\sum_{t=1}^ne_t^2}\approx 2-2\frac{\sum_{t=2}^ne_te_{t-1}}{\sum_{t=1}^n e_t^2}\equiv2(1-\hat{\rho}_1)

      image-20200807150905356

# 2.5 补救方式

  • 稳健标准误

    • 异方差自相关稳健标准误(HAC)——Newey West估计法
      • SXX1Q^SXX1S_{XX}^{-1}\hat{Q}S_{XX}^{-1}
    • 聚类稳健标准误(Clustered)
      • 如果样本观测值可以分为不同的“聚类”,在同一聚类的观测值互相相关,而不同聚类间的观测值不相关,这种样本就称为“聚类样本”
  • FGLS

    Var(εX)=σ2(1ρρn1ρ1ρn2ρn1ρn21)σ2VV1=CCC=11ρ2(1ρ2000ρ1000ρ0000ρ1)H=1ρ2CVar(\varepsilon|X)=\sigma^2 \begin{pmatrix} 1 & \rho & \cdots &\rho^{n-1}\\ \rho &1 &\cdots &\rho^{n-2}\\ \vdots &\vdots & &\vdots\\ \rho^{n-1} &\rho^{n-2} &\cdots &1 \end{pmatrix}\equiv \sigma^2V \\ \ \\ V^{-1}=C'C\\ \ \\ C=\frac{1}{\sqrt{1-\rho^2}}\begin{pmatrix}\sqrt{1-\rho^2} &0 &\cdots &0 &0 \\ -\rho &1 &\cdots &0 &0\\ 0 &-\rho &\cdots &0 &0 \\ \vdots &\vdots & &\vdots &\vdots \\ 0 &0 &\cdots &-\rho &1 \end{pmatrix}\\ \ \\ H=\sqrt{1-\rho^2}C

    image-20200807160203819

# 八、模型设定与数据问题

# 1. 遗漏变量

# 1.1 两种情况

  • 遗漏变量与解释变量不相关Cov(xi1,xi2)=0Cov(x_{i1},x_{i2})=0,不影响一致性,但是会增大扰动项的方差
  • 遗漏变量与解释变量相关Cov(xi1,xi2)0Cov(x_{i1},x_{i2})\neq0,OLS不再是一致估计,成为“遗漏变量偏差”

# 1.2 解决遗漏变量的方法

  • 加入尽可能多的控制变量

  • 使用“代理变量”

    • 多余性:仅通过影响遗漏变量而作用于被解释变量
    • 剩余独立性:遗漏变量中不受代理变量影响的剩余部分与解释变量均不相关

    命题:上述两个条件满足,使用代理变量就能获得一致的估计量

    image-20200808153617840
  • 工具变量法

  • 使用面板数据

  • 随机试验与自然实验

# 2. 无关变量

  • 真实模型: yi=xi1β1+εiy_i=x_{i1}'\beta_1+\varepsilon_i
  • 实际估计的模型:yi=xi1β1+xi2β2+(εixi2β2)y_i=x_{i1}'\beta_1+x_{i2}'\beta_2+(\varepsilon_{i}-x_{i2}'\beta_2)
  • 估计量依旧一致,但是方差会增大

# 3. 解释变量的选择

  • 校正可决系数Rˉ2\bar R^2

  • AIC:

    minKAICln(ee/n)+2nK\mathop{min}_{K} AIC\equiv ln(e'e/n)+\frac{2}{n}K

  • BIC

minKBICln(ee/n)+lnnnK\mathop{min}_{K} BIC\equiv ln(e'e/n)+\frac{ln\ n}{n}K

  • HQIC:

minKBICln(ee/n)+ln[lnn]nK\mathop{min}_{K} BIC\equiv ln(e'e/n)+\frac{ln[ln\ n]}{n}K

BIC比AIC惩罚更严厉,但是BIC是p的一致估计。

# 4. 对函数形式的检验

  • RESET检验
    • 基本思想:如果非线性项被遗漏了,就把非线性项引入方程,并检验其系数是否显著
    • y=xβ+δ2y^2+δ3y^3+δ4y^4+μy=x'\beta+\delta_2\hat{y}^2+\delta_3\hat{y}^3+\delta_4\hat{y}^4+\muH0:δ2=δ3=δ4=0H_0:\delta_2=\delta_3=\delta_4=0
    • 缺点:并不知道具体遗漏了哪些高次项的信息

# 5. 多重共线性

# 5.1 严格多重共线性

  • (XX)1(X'X)^{-1} 不存在

# 5.2 非严格多重共线性

  • OLS仍旧是BLUE
  • 但方差Var(bX)Var(b|X)变得很大,使得对系数的估计变得不准确
  • 症状:
    • 单个tt检验不显著,但总体R2R^2较大
    • 增减解释变量使得系数估计值发生较大变化
    • Var(bkX)=σ2(1Rk2)SkkVar(b_k|X)=\frac{\sigma^2}{(1-R_{k}^2)S_{kk}}
      • 方差膨胀因子VIFVIF: VIF=11Rk2VIF=\frac{1}{1-R_k^2}
      • 经验规则:max{VIF1,VIF2,,VIFk}10max\{VIF_1,VIF_2,\cdots,VIF_k\}\leq10

# 6. 极端数据

  • 杠杆:levixi(XX)1xilev_i\equiv x_i'(X'X)^{-1}x_i

    • 0levi10\leq lev_i\leq1
    • i=1nlevi=K\sum_{i=1}^n lev_i=K(解释变量个数)
  • b(i)b^{(i)}为去掉第ii个观测数据后的OLS估计值,可以证明:

    bb(i)=(11levi)(XX)1xieib-b^{(i)}=(\frac{1}{1-lev_i})(X'X)^{-1}x_ie_i

# 7. 虚拟变量

  • 引入虚拟变量本身
  • 引入虚拟变量与解释变量的交互项

# 8. 经济结构变动的检验

# 8.1 结构变动日期已知

  • Chow Test

    无约束方程:y1=X1β1+ε1y2=X2β2+ε2有约束方程:y=Xβ+εH0:β1=β2(Kconstraintstotal)F=(eee1e1e2e2)/K(e1e1+e2e2)/(n2K)F(K,n2K)\text{无约束方程:}\\ y^1=X^1\beta^1+\varepsilon^1\\ y^2=X^2\beta^2+\varepsilon^2\\ \text{有约束方程:}\\ y=X\beta+\varepsilon\\ \ \\ \ \\ H_0: \vec{\beta^1}=\vec{\beta^2}(K\ constraints\ total)\\ \ \\ F=\frac{(e'e-e_1'e_1-e_2'e_2)/K}{(e_1'e_1+e_2'e_2)/(n-2K)}\sim F(K,n-2K)

  • 虚拟变量法

    yt=α+βxt+γDt+δDtxt+εty_t=\alpha+\beta x_t+\gamma D_t+\delta D_tx_t+\varepsilon_t

    • 优点:

      • 只需生成虚拟变量即可检验

      • Chow test的前提是同方差,虚拟变量法使用稳健标准误可以检验异方差下的情况

      • 虚拟变量法可以提供是斜率变动还是截距变动的信息

# 8.2 结构变动日期未知

  • 选择一个区间 [τ0,τ1][1,T][\tau_0,\tau_1]\subseteq[1,T],计算每一年份的F统计量,然后取最大值
  • 匡特统计量(QLR)
  • 15% trimming

# 9. 缺失数据与线性插值

  • xtx_t对时间tt的线性插值为:x^t=xt1+xt+12\hat{x}_t=\frac{x_{t-1}+x_{t+1}}{2}

  • yty_t的插值:y^=y1y0x1x0(xx0)+y0\hat{y}=\frac{y_1-y_0}{x_1-x_0}(x-x_0)+y_0

# 九、面板数据

# 十、IV, 2SLS, GMM

# 1. 解释变量与扰动项相关的例子

  • 联立方程偏差(内生变量与扰动项相关)

  • 有效工具变量应满足的条件:

    • 工具变量与内生解释变量相关Cov(zi,xi)0Cov(z_i,x_i)\neq0
    • (排他性约束)工具变量与扰动项不相关Cov(zi,ui)=0Cov(z_i,u_i)=0
  • 初识2SLS

    • 第一阶段:(提炼外生部分)用内生解释变量对工具变量进行回归,ptOLSztp_t\stackrel{OLS}\longrightarrow z_t,得到拟合值p^t\hat{p}_t
    • 第二阶段:用被解释变量对第一阶段回归的拟合值进行回归,即qtOLSp^tq_t\stackrel{OLS}\longrightarrow \hat{p}_t
  • 解释变量测量误差

    • 真实模型:

      y=α+βx×+εy=\alpha+\beta x^*+\varepsilon

      Cov(x×,ε)=0Cov(x^*,\varepsilon)=0

    • 观测到:

      x=x×+ux=x^*+u

      Cov(x×,u)=0,Cov(u,ε)=0Cov(x^* , u)=0, Cov(u,\varepsilon)=0

    因此待估计的模型:

    y=α+βx+(εβu)y=\alpha+\beta x+(\varepsilon-\beta u)

    • 向0的偏误:

    Cov(x×+u,εβu)=βVar(u)0Cov(x^*+u,\varepsilon-\beta u)=-\beta Var(u)\neq0

    β^pCov(xi,yi)Var(xi)=βVar(xi×)Var(xi×)+Var(u)=β11+σu2σx×2\hat{\beta}\stackrel{p}\longrightarrow \frac{Cov(x_i,y_i)}{Var(x_i)}=\frac{\beta Var(x_i^*)}{Var(x_i^*)+Var(u)}=\beta\frac{1}{1+\frac{\sigma_u^2}{\sigma_{x^*}^2}}

  • 被解释变量存在测量误差

    • 真正的模型:y×=βx+εy^*=\beta x+\varepsilon, Cov(x,ε)=0Cov(x,\varepsilon)=0, β0\beta\neq0

    • 测量误差:y=y×+vy=y^*+v

    • 待估计模型:y=βx+(ε+v)y=\beta x+(\varepsilon+v) 扰动项误差增大

# 2. 工具变量法作为一种矩估计

# 2.1 矩估计

  • 基本思想:用样本矩替代总体矩
  • OLS作为一种矩估计

E(xiεi)=0E[xi(yixiβ)]=0β=[E(xixi)]1E(xiyi)β^MM=[1/n(xixi)]1(1/nxiyi)=(XX)1(Xy)=β^OLS\begin{aligned} E(x_i\varepsilon_i)=0&\to E[x_i(y_i-x_i'\beta)]=0\\ &\to \beta=[E(x_ix_i')]^{-1}E(x_iy_i) \end{aligned}\\ \hat{\beta}_{MM}=[1/n \sum(x_ix_i')]^{-1}(1/n \sum x_iy_i)=(X'X)^{-1}(X'y)=\hat{\beta}_{OLS}

# 2.2 工具变量法作为一种矩估计

  • 正交条件:E(ziεi)=E(zi(yixiβ))=0β=[E(zixi)]1E(ziyi)E(z_i\varepsilon_i)=E(z_i(y_i-x_i'\beta))=0\to \beta=[E(z_ix_i')]^{-1}E(z_iy_i)

  • β^IV=[1/n(zixi)]1(1/nziyi)=(ZX)1(Zy)\hat{\beta}_{IV}=[1/n \sum(z_ix_i')]^{-1}(1/n \sum z_iy_i)=(Z'X)^{-1}(Z'y)

  • 秩条件

    • rank[E(zixi)]=Krank[E(z_ix_i')]=K,则在一定的正则条件下,β^IV\hat{\beta}_{IV}β\beta的一致估计,且β^IV\hat{\beta}_{IV}服从渐进正态分布
  • 阶条件

    • 不在方程中出现的工具变量个数不能少于方程中内生结束变量的个数
      • 不可识别

      • 恰好识别:上述工具变量法仅适用于恰好识别这一情形

      • 过度识别

# 3. 2SLS

  • 同方差假定为前提

  • 实质是生成工具变量的K个线性组合,满足工具变量“恰好识别”的条件

  • 步骤:

    • 第一部分:将每个解释变量x1,x2,,xKx_1,x_2,\cdots,x_K分别对所有LL个工具变量{z1,z2,,zLz_1,z_2,\cdots,z_L}做OLS回归,得到拟合值

      x^1=Px1,x^2=Px2,,x^K=PxK,其中PZ(ZZ)1ZX^(x^1,,x^K)=PX=Z[(ZZ)1ZX]\hat{x}_1=Px_1, \hat{x}_2=Px_2, \cdots, \hat{x}_K=Px_K,其中P\equiv Z(Z'Z)^{-1}Z'\\ \hat{X}\equiv (\hat{x}_1,\cdots,\hat{x}_K)=PX=Z[(Z'Z)^{-1}Z'X]

    • 第二部分:使用外生部分X^\hat{X}进行回归

      β^IV=(X^X)1X^y=(X^X^)1X^y\hat{\beta}_{IV}=(\hat{X}'X)^{-1}\hat{X}'y'=(\hat{X}'\hat{X})^{-1}\hat{X}'y'

      X^X^=(PX)(PX)=XPPX=XPX=X^X\hat{X}'\hat{X}=(PX)'(PX)=X'P'PX=X'P'X=\hat{X}'X

      β^2SLS=(XPX)1XPy=[XZ(ZZ)1ZX]1XZ(ZZ)1Zy\hat{\beta}_{2SLS}=(X'PX)^{-1}X'Py=[X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y

# 4. 有关工具变量的检验

# 4.1 不可识别检验

  • rank[E(zixi)]=K1rank[E(z_ix_i')]=K-1

  • Anderson LM统计量 χ2(LK+1)\chi^2(L-K+1)

# 4.2 弱工具变量检验

  • 四种检验方法
    • R2R^2
    • 最小特征值统计量
    • "Cragg-Donald Wald F统计量" (Cragg and Donald, 1993) [需假设扰动项为iid]
    • "Kleibergen-Paap Wald rk F统计量"
  • 解决弱工具变量的方法
    • 寻找更强的工具变量
    • 使用对弱工具变量更不敏感的“有限信息最大似然估计法” (LIML)
    • 丢弃冗余工具变量

# 4.3 过度识别检验——Sargan统计量

  • H0:H_0: 所有工具变量都是外生的
  • ei,IV=γ1xi1++γKrxi,Kr+δ1zi1++δmzim+errorie_{i,IV}=\gamma_1x_{i1}+\cdots+\gamma_{K-r}x_{i,K-r}+\delta_1z_{i1}+\cdots+\delta_mz_{im}+error_{i}
  • Sargan统计量:nR2dχ2(mr)nR^2\stackrel{d}\longrightarrow\chi^2(m-r)
  • 过度识别的大前提:至少该模型是恰好识别的【需说明这些IV估计量中至少有一个是外生的】

# 4.4 究竟使用OLS还是工具变量:豪斯曼检验

  • H0:H_0:所有解释变量均外生
  • (β^IVβ^OLS)D(β^IVβ^OLS)dχ2(r)(\hat{\beta}_{IV}-\hat{\beta}_{OLS})'D^{-}(\hat{\beta}_{IV}-\hat{\beta}_{OLS})\stackrel{d}\longrightarrow \chi^2(r)
  • 注意:传统豪斯曼检验不适用于异方差的情况
    • 解决异方差的方法
      1. bootstrap
      2. Durbin-Wu-Hausman Test
        • 一阶段回归:x2=x1γ+zδ+vx_2=x_1'\gamma+z'\delta+v
        • 原模型中的y=x1β1+x2β+εy=x_1'\beta_1+x_2\beta+\varepsilon, 其中ε=ρv+ξ\varepsilon=\rho v+\xi
        • y=x1β+x2β2+v^ρ+errory=x_1'\beta+x_2'\beta_2+\hat{v}'\rho+error, H0:ρ=0H_0: \rho=0

# 5. GMM: 假定

2SLS有效的前提:球形扰动项;但如果扰动项存在异方差或者自相关,GMM更有效

  1. 线性假定
  2. 渐进独立的平稳过程
  3. 工具变量的正交性
    • 定义LL维列限量giziεig_i\equiv z_i\varepsilon_i, E(gi)=E(ziεi)=0E(g_i)=E(z_i\varepsilon_i)=0
  4. 秩条件
    • E(zixi)E(z_ix_i')满列秩
  5. {gi}\{g_i\}为鞅差分序列
    • 协方差矩阵S=E(gigi)=E(εi2zizi)S=E(g_ig_i')=E(\varepsilon_i^2z_iz_i')为非退化矩阵
  6. 四阶矩E[(xikzij)2]E[(x_{ik}z_{ij})^2]存在且有限,i,j,k\forall i,j,k

# 6. GMM的推导

  • 总体矩条件:E(gi)=E(ziεi)=0E(g_i)=E(z_i\varepsilon_i)=0
  • 相对应的样本矩条件:gn(β^)1nzi(yixiβ^)=0g_n(\hat\beta)\equiv \frac{1}{n}\sum z_i(y_i-x_i'\hat \beta)=0
    • K(β\beta向量的维度)个未知数,L(工具变量的个数)个方程
      • K>L, 无穷多解,此时无法识别
      • K=L,唯一解, 恰好识别
      • K<L, 无解,过度识别
        • 想办法找到β^\hat \beta使得gn(β^)g_n(\hat \beta)尽可能地接近0\textbf{0}
  • 假设W^\hat W为一个L×LL\times L维对称正定矩阵,且plimW^=Wplim\hat W=W, 定义最小化的目标函数为:

minβ^J(β^,W^)n(gn(β^))W^(gn(β^))\mathop{min}_{\hat \beta }J(\hat \beta, \hat W)\equiv n(g_n(\hat \beta))'\hat W(g_n(\hat \beta))

  • GMM估计量

β^GMM(W^)argminβ^J(β^,W^)=(SZXW^SZX)1SZXW^SZy\begin{aligned} \hat \beta_{GMM}(\hat W)&\equiv \mathop{argmin}_{\hat \beta}J(\hat{\beta},\hat{W})\\ &=(S_{ZX}'\hat W S_{ZX})^{-1}S_{ZX}' \hat W S_{Zy} \end{aligned}

​ 其中:SZX=1nzixiS_{ZX}=\frac{1}{n}\sum z_ix_i'SZy=1nziyiS_{Zy}=\frac{1}{n}\sum z_iy_i

恰好识别的情况下,GMM还原为IV,因为β^GMM(W^)=SZX1W^1SZX1SZXW^SZy=SZX1SZy=β^IV\hat \beta_{GMM}(\hat W)=S_{ZX}^{-1}\hat W^{-1} S_{ZX}'^{-1}S_{ZX}' \hat W S_{Zy}=S_{ZX}^{-1}S_{Zy}=\hat \beta_{IV}

  • GMM推导

J(β^,W^)=n(SZySZXβ^)W^(SZySZX)=n(SZyβ^SZX)W^(SZySZX)=n(SZyW^SZXβ^W^)(SZySZX)=n(SZyW^SZy2β^SZXW^SZy+β^SZXW^SZXβ^)J(β^,W^)β^=n(2SZXW^SZy+2SZXW^SZXβ^)β^GMM(W^)argminβ^J(β^,W^)=(SZXW^SZX)1SZXW^SZy\begin{aligned} J(\hat{\beta},\hat{W})&=n(S_{Zy}-S_{ZX}\hat{\beta})'\hat{W}(S_{Zy}-S_{ZX})=n(S_{Zy}'-\hat{\beta}'S_{ZX}')\hat{W}(S_{Zy}-S_{ZX})\\ &=n(S_{Zy}'\hat{W}-S_{ZX}'\hat{\beta}'\hat{W})(S_{Zy}-S_{ZX})\\ &=n(S_{Zy}'\hat{W}S_{Zy}-2\hat{\beta}'S_{ZX}'\hat{W}S_{Zy}+\hat{\beta}'S_{ZX}'\hat{W}S_{ZX}\hat{\beta})\\ \frac{\partial J(\hat{\beta},\hat{W})}{\partial \hat{\beta}}&=n(-2S_{ZX}'\hat{W}S_{Zy}+2S_{ZX}'\hat{W}S_{ZX}\hat{\beta})\\ \hat \beta_{GMM}(\hat W)&\equiv \mathop{argmin}_{\hat \beta}J(\hat{\beta},\hat{W})\\ &=(S_{ZX}'\hat W S_{ZX})^{-1}S_{ZX}' \hat W S_{Zy} \end{aligned}

# 7. GMM的大样本性质

  • β^GMM\hat{\beta}_{GMM}为一致估计:plimnβ^GMM(W^)=β\mathop plim_{n\to \infty}\hat{\beta}_{GMM}(\hat{W})=\beta
  • β^GMM\hat{\beta}_{GMM}为渐进正态

命题:使Avar(β^GMM)Avar(\hat{\beta}_{GMM})最小化的“最优权重矩阵”为W^=S^1\hat{W}=\hat{S}^{-1},其中S^1nei2zizi\hat{S}\equiv \frac{1}{n}\sum e_i^2z_iz_i'SE(εi2zizi)S\equiv E(\varepsilon_i^2z_iz_i')的一致估计

两步最优GMM估计:

  • 第一步:使用2SLS, 得到残差,计算S^1nei2zizi\hat {S}\equiv \frac{1}{n}\sum e_i^2z_iz_i'
  • 第二步:最小化J(β^,S^1)J(\hat \beta, \hat{S}^{-1})

命题:条件同方差(给定工具变量)情况下,最优GMM就是2SLS

  • 证明:E(εi2zi)=σ2>0E(\varepsilon_i^2|z_i)=\sigma^2>0

    待完善。

  • GMM过度识别检验 ( 《高级计量经济学及stata应用(第二版)》pp. 150)

  • 检验部分工具变量的正交性

  • 在存在自相关的情况下使用GMM

# 8. 如何获得工具变量

  1. 列出与解释变量x相关的的尽可能多的变量清单
  2. 从这一清单中剔除与扰动项相关的变量

# 9. MLE也是GMM

  • 只要E(si(θ0;yi))=0E(s_i(\theta_0;y_i))=0成立,则QMLE仍然是一致的

# 十一、最大似然估计法

# 1. 定义

  • 似然函数

L(θ;y1,yn)=i=1nf(yi;θ)L(\theta;y_1,\cdots,y_n)=\prod_{i=1}^{n}f(y_i;\theta)

  • 对数形式

lnL(θ;y1,yn)=i=1nlnf(yi;θ)lnL(\theta;y_1,\cdots,y_n)=\sum_{i=1}^{n}lnf(y_i;\theta)

  • 最大似然估计量

θ^MLargmaxlnL(θ;y)\hat{\theta}_{ML}\equiv argmax\ lnL(\theta;y)

  • 唯一内点解,无约束极值问题的一阶条件

s(θ;y)L(θ;y)θ(L(θ;y)θ1L(θ;y)θ2L(θ;y)θK)=0s(\theta;y)\equiv \frac{\partial L(\theta;y)}{\partial \theta}\equiv \begin{pmatrix}\frac{\partial L(\theta;y)}{\partial \theta_1} \\ \frac{\partial L(\theta;y)}{\partial \theta_2}\\ \vdots \\ \frac{\partial L(\theta;y)}{\partial \theta_K}\end{pmatrix}=0

  • 命题:得分函数的期望为0

    若似然函数正确,则E[s(θ0;y)]=0E[s(\theta_0;y)]=0,其中s(θ0;y)s(\theta_0;y)表示得分函数s(θ;y)s(\theta;y)θ=θ0\theta=\theta_0处的取值

s(θ;y)=i=1nlnf(yi;θ)θ=lnf(yi;θ)θ=i=1nsi(θ;yi)s(\theta;y)=\frac{\partial \sum_{i=1}^{n}lnf(y_i;\theta)}{\partial \theta}=\sum\frac{lnf(y_i;\theta)}{\partial \theta}=\sum_{i=1}^{n}s_i(\theta;y_i)

  • 二阶条件——负定:

H(θ;y)2lnL(θ;y)θθ=i=1n2lnL(θ;yi)θθi=1nHi(θ;yi)H(\theta;y)\equiv \frac{\partial^2 lnL(\theta;y)}{\partial \theta \partial \theta'}=\sum_{i=1}^{n}\frac{\partial^2 lnL(\theta;y_i)}{\partial \theta \partial \theta'}\equiv\sum_{i=1}^{n}H_i(\theta;y_i)

# 2. 线性回归模型的最大似然估计

  • 首先需要对扰动项的条件概率分布进行假设,如假设为正态分布εXN(0σ2In)\varepsilon|X\sim N(0,\sigma^2I_n),则yXN(Xβσ2In)y|X\sim N(X\beta,\sigma^2I_n)

  • y=Xβ+εy=X\beta+\varepsilon

  • f(yX)=(2πσ2)n/2exp{12σ2(yXβ)(yXβ)}f(y|X)=(2\pi\sigma^2)^{-n/2}exp\{-\frac{1}{2\sigma^2}(y-X\beta)'(y-X\beta)\}

    lnL(β~,σ~2)=n2ln2πn2lnσ~212σ~2(yXβ~)(yXβ~)lnL(\tilde{\beta},\tilde{\sigma}^2)=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\tilde{\sigma}^2-\frac{1}{2\tilde{\sigma}^2}(y-X\tilde{\beta})'(y-X\tilde{\beta})

  • β^ML=β^OLS=(XX)1Xy\hat{\beta}_{ML}=\hat{\beta}_{OLS}=(X'X)^{-1}X'y

  • 第二步:lnL(β~,σ~2)=n2ln2πn2lnσ~212σ~2eelnL(\tilde{\beta},\tilde{\sigma}^2)=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\tilde{\sigma}^2-\frac{1}{2\tilde{\sigma}^2}e'e,对σ~2\tilde\sigma^2求导,得到

    σ^ML2=eenσ^OLS2=eenKs2\hat\sigma^2_{ML}=\frac{e'e}{n}\neq \hat\sigma^2_{OLS}=\frac{e'e}{n-K}\equiv s^2

    • MLE主要优点是大样本性质良好,比如一致性、最小渐近方差

    • 缺点是对方差的估计是有偏的!

# 3. 最大似然估计的数值解

  • 针对一维

# 3.2 针对多维——迭代法【例如:牛顿法】

xi+1=xif(xi)f(xi)x_{i+1}=x_i-\frac{f(x_i)}{f'(x_i)}

# 4. 信息矩阵与无偏估计的最小方差

# 4.1 信息矩阵

I(θ)E[2lnL(θ;y)θθ]I(\theta)\equiv -E[\frac{\partial^2lnL(\theta;y)}{\partial \theta\partial \theta'}]

  • I(θ)I(\theta)在几何上是"平均曲率"。I(θ)I(\theta)包含了θ\theta是否容易估计的信息,故称为“信息矩阵”

  • 命题:信息矩阵等式

    • θ=θ0\theta=\theta_0处,

      I(θ0)E[2lnL(θ0;y)θθ]=E[lnL(θ0;y)θlnL(θ0;y)θ]=E[s(θ0;y)s(θ0;y)]I(\theta_0)\equiv -E[\frac{\partial^2lnL(\theta_0;y)}{\partial \theta\partial \theta'}]=E[\frac{\partial lnL(\theta_0;y)}{\partial \theta} \frac{\partial lnL(\theta_0;y)}{\partial \theta'}]=E[s(\theta_0;y)s(\theta_0;y)']

  • 命题:得分函数的方差为信息矩阵

    • θ=θ0\theta=\theta_0处,信息矩阵I(θ0)I(\theta_0)就是得分函数的协方差矩阵Var[s(θ0;y)]Var[s(\theta_0;y)]

# 4.2 Cramer-Rao Lower Bound

  • 假设θ^\hat{\theta}是对真实参数θ0\theta_0的任意无偏估计,则在一定的正则条件下,θ^\hat{\theta}的方差不会小于[I(θ0)]1[I(\theta_0)]^{-1}, 即Var(θ^)[I(θ0)]1Var(\hat{\theta})\geq[I(\theta_0)]^{-1}

    • 其中:[I(θ0)]1=(σ2(XX)1002σ4/n)[I(\theta_0)]^{-1}=\begin{pmatrix}\sigma^2(X'X)^{-1} &0 \\0 & 2\sigma^4/n \end{pmatrix}

# 5. 最大似然法的大样本性质

  • (1)一致性
    • plimθ^ML=θ0plim\hat{\theta}_{ML}=\theta_0
  • (2)渐进有效性
    • Avar(θ^ML)=n[I(θ0)]1Avar(\hat{\theta}_{ML})=n[I(\theta_0)]^{-1}
  • (3)渐进正态
    • n(θ^MLθ0)dN(0,n[I(θ0)]1)\sqrt{n}(\hat{\theta}_{ML}-\theta_0)\stackrel{d}\longrightarrow N(0,n[I(\theta_0)]^{-1})

以上性质的证明待补充。

# 6. 最大似然估计量的渐进协方差矩阵

Avar(θ^ML)=n[I(θ0)]1=n{E[2lnL(θ0;y)θθ]}1Avar(\hat{\theta}_{ML})=n[I(\theta_0)]^{-1}=n\{-E[\frac{\partial^2lnL(\theta_0;y)}{\partial \theta\partial \theta'}]\}^{-1}

  • 依赖未知参数θ0\theta_0,但θ0\theta_0待估

(1)期望值法

Avar(θ^ML)=n{E[2lnL(θ^ML;y)θ^θ^]}1Avar(\hat{\theta}_{ML})=n\{-E[\frac{\partial^2lnL(\hat\theta_{ML};y)}{\partial \hat{\theta}\partial \hat{\theta}'}]\}^{-1}

(2)观测信息矩阵法 (OIM)

Avar(θ^ML)=n[2lnL(θ^ML;y)θ^θ^]1Avar(\hat{\theta}_{ML})=n[-\frac{\partial^2lnL(\hat\theta_{ML};y)}{\partial \hat{\theta}\partial \hat{\theta}'}]^{-1}

(3)梯度向量外积或BHHH法 (OPG)

Avar(θ^ML)=n(s^is^i)1Avar(\hat{\theta}_{ML})=n(\sum\hat{s}_i\hat{s}_i')^{-1},其中s^ilnL(θ^ML;yi)θ\hat{s}_i\equiv \frac{\partial lnL(\hat\theta_{ML};y_i)}{\partial \theta}为第ii个观测值对得分函数的贡献之估计值

# 7. 三类渐进等价的统计检验

  • Wald Test

  • Likelihood Ratio Test(LR)

  • 拉格朗日乘子法(LM)

# 8. 准最大似然估计法

  • 定义:使用不正确的似然函数而得到的最大似然估计,称为“准最大似然估计(QMLE)”

  • 待补充!!

# 9. 对正态分布假设的检验

  • 画图(histogram; kernel density estimation; QQ-plot)
  • Jarque-Bera检验

JBn6[(1nσ^3ei3)2+14(1nσ^4ei43)2]dχ2(2)JB\equiv \frac{n}{6}[(\frac{1}{n\hat{\sigma}^3}\sum e_i^3)^2+\frac{1}{4}(\frac{1}{n\hat{\sigma}^4}\sum e_i^4-3)^2]\stackrel{d}\longrightarrow\chi^2(2)

# 十二、二值选择模型

# 1. Linear Probability Model (LPM)

# 1.1 问题起源:εi\varepsilon_ixix_i相关

  • 因为y只能取0或者1,因而εi=1xiβ\varepsilon_i=1-x_i'\beta或者εi=xiβ\varepsilon_i=-x_i'\beta, 与x相关, inconsistent

  • ε\varepsilon是两点分布而不是正态分布

  • Var(εi)=Var(xiβ)Var(\varepsilon_i)=Var(x_i'\beta), 存在异方差

# 1.2 另一问题:预测值超出范围

y^>1\hat y>1 or y^<0\hat y<0并不符合被解释变量二值的现实

# 1.3 LPM的优点

  • 计算方便

  • 容易得到边际效应

# 2. 连接函数F(x,β)F(x,\beta)

# 2.1 将y^=E(yx)\hat y=E(y|x)理解为“y=1y=1”发生的概率

E(yx)=1P(y=1x)+0P(y=0x)=P(y=1x)E(y|x)=1\cdot P(y=1|x)+0\cdot P(y=0|x)=P(y=1|x)

# 2.2 Probit Model

P(y=1x)=F(x,β)=Φ(xβ)=xβϕ(t)dtP(y=1|x)=F(x,\beta)=\Phi(x'\beta)=\int_{-\infty}^{x'\beta}\phi(t)dt

  • F(x,β)F(x,\beta)为标准正态的累积分布函数(cdf)

# 2.3 Logit Model

P(y=1x)=F(x,β)=Λ(x,β)exp(xβ)1+exp(xβ)P(y=1|x)=F(x,\beta)=\Lambda(x',\beta)\equiv \frac{exp(x'\beta)}{1+exp(x'\beta)}

  • 逻辑分布期望为0,方差为π2/3\pi^2/3

  • 与标准正态相比,逻辑分布具有fat tails的特征

# 3. Logit Model:分析

# 3.1 估计方法:MLE

第i个数据的概率密度:

f(yix,β)={Λ(xiβ)ifyi=11Λ(xiβ)ifyi=0f(y_i|x,\beta)=\begin{cases} \Lambda(x_i'\beta) &\ if y_i=1\\ 1-\Lambda(x_i'\beta) &\ if y_i=0\end{cases}

因此,

f(yixi,β)=[Λ(xiβ)]yi[1Λ(xiβ)]1yif(y_i|x_i,\beta)=[\Lambda(x_i'\beta)]^{y_i}[1-\Lambda(x_i'\beta)]^{1-y_i}

取对数,

lnf(yixi,β)=yiln[Λ(xiβ)]+(1yi)ln[1Λ(xiβ)]ln f(y_i|x_i,\beta)=y_i ln[\Lambda(x_i'\beta)]+(1-y_i) ln[1-\Lambda(x_i'\beta)]

对数似然函数:

lnL(βy,x)=i=1nyiln[Λ(xiβ)]+i=1n(1yi)ln[1Λ(xiβ)]ln L(\beta|y,x)=\sum_{i=1}^{n} y_i ln[\Lambda (x_i'\beta)]+\sum_{i=1}^{n}(1-y_i)ln[1-\Lambda(x_i'\beta)]

β^MLE=argmaxln(β;y,x)\hat{\beta}_{MLE}=argmax\ ln(\beta; y,x)

# 3.2 βMLE\beta_{MLE}并非边际效应

P(y=1x)xk=P(y=1x)(xβ)(xβ)xk=ϕ(xβ)βk\frac{\partial P(y=1|x)}{\partial x_k}=\frac{\partial P(y=1|x)}{\partial (x'\beta)}\cdot \frac{\partial (x'\beta)}{\partial x_k}=\phi(x'\beta)\cdot \beta_k

三种常用的边际效应:

  • 平均边际效应:分别计算在每个样本观测值上的边际效应,然后进行简单的算术平均

  • 样本均值处的边际效应:x=xˉx=\bar{x}处的边际效应

  • 在某代表值处的边际效应:x=x×x=x^*处的边际效应

# 3.3 Log-odds ratio

pP(y=1x),1pP(y=0x)p=exp(xβ)1+exp(xβ),1p=11+exp(xβ)p1p=exp(xβ)lnp1p=xβp\equiv P(y=1|x),1-p\equiv P(y=0|x)\\ p=\frac{exp(x'\beta)}{1+exp(x'\beta)}, 1-p=\frac{1}{1+exp(x'\beta)}\\ \frac{p}{1-p}=exp(x'\beta) \\ ln \frac{p}{1-p}=x'\beta

  • lnp1pln\frac{p}{1-p}可以视作半弹性的概念,对于odds而言。即解释变量变化一个单位,odds ratio变化了百分之多少
  • exp(βj)exp(\beta_j)的解释:解释变量变化一个单位,odds变为原来的多少倍:

p×1p×/p1p=exp(β1+β2x2++βj(xj+1)++βKxK)exp(β1+β2x2++βjxj++βKxK)=exp(βj)\frac{p^*}{1-p^*}/\frac{p}{1-p}=\frac{exp(\beta_1+\beta_2x_2+\cdots+\beta_j(x_j+1)+\cdots+\beta_Kx_K)}{exp(\beta_1+\beta_2x_2+\cdots+\beta_j x_j+\cdots+\beta_Kx_K)}=exp(\beta_j)

# 4. 二值选择模型的拟合优度

  • R2R^2(Pseudo R2R^2)

PseudoR2lnL0lnL1lnL0=lnL1lnL0lnLmaxlnL0Pseudo\ R^2\equiv \frac{ln\ L_0-ln\ L_1}{ln\ L_0}=\frac{ln \ L_1-ln\ L_0}{ln\ L_{max}-ln\ L_0}

# 5. 二值选择模型的微观基础

# 5.1 扰动项的一种解释:潜变量

  • latent variable (潜变量)
  • 净收益(不可观测)y×y^*

y×=xβ+εy^*=x'\beta+\varepsilon

  • 净收益大于0,选择做;否则选择不做。
  • index function

y={1ify×>00ify×0y=\begin{cases} 1 &if\ y^*>0\\ 0 & if\ y^*\leq 0\end{cases}

  • 假设εN(0,σ2)\varepsilon\sim N(0,\sigma^2) or 逻辑分布:

    P(y=1x)=P(ε>xβx)=P(ε<xβ)=Fε(xβ)P(y=1|x)=P(\varepsilon>-x'\beta|x)=P(\varepsilon<x'\beta)=F_{\varepsilon}(x'\beta)

# 5.2 另一种解释:随机效用最大化模型(RUM)

假定Ua=xβa+εa,Ub=xβb+εbU_a=x'\beta_a+\varepsilon_a, U_b=x'\beta_b+\varepsilon_b

P(y=1x)=P(Ua>Ubx)=P[x(βaβb)+(εa+εb)>0x]P(y=1|x)=P(U_a>U_b|x)=P[x'(\beta_a-\beta_b)+(\varepsilon_a+\varepsilon_b)>0|x]

# 十三、多值选择模型

# 1. 多项Logit与多项Probit

  • 个体i选择方案j所能带来的随机效用为

Uij=xiβj+εij(i=1,,n;j=1,,J)U_{i j}=\boldsymbol{x}_{i} \boldsymbol{\beta}_{j}+\varepsilon_{i j} \quad(i=1, \cdots, n ; j=1, \cdots, J)

  • 个体i选择方案j的概率:

P(yi=jxi)=P(UijUik,kj)=P(UikUij0,kj)=P(εikεijxiβjxiβk,kj)\begin{aligned} \mathrm{P}\left(y_{i}=j \mid \boldsymbol{x}_{i}\right) &=\mathrm{P}\left(U_{i j} \geqslant U_{i k}, \forall k \neq j\right) \\ &=\mathrm{P}\left(U_{i k}-U_{i j} \leqslant 0, \forall k \neq j\right) \\ &=\mathrm{P}\left(\varepsilon_{i k}-\varepsilon_{i j} \leqslant \boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{j}-\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{k}, \forall k \neq j\right) \end{aligned}

  • 假设扰动项{ε}\{\varepsilon\}为iid且服从I型极值分布,则有:

P(yi=jxi)=exp(xiβj)k=1Jexp(xiβk)P\left(y_{i}=j \mid x_{i}\right)=\frac{\exp \left(x_{i}^{\prime} \beta_{j}\right)}{\sum_{k=1}^{J} \exp \left(x_{i}^{\prime} \beta_{k}\right)}

  • base category

    P(yi=jxi)={11+k=2Jexp(xiβk)(j=1)exp(xiβj)1+k=2Jexp(xiβk)(j=2,,J)P\left(y_{i}=j \mid x_{i}\right)=\left\{\begin{array}{ll} \frac{1}{1+\sum_{k=2}^{J} \exp \left(x_{i}^{\prime} \boldsymbol{\beta}_{k}\right)} & (j=1) \\ \frac{\exp \left(\boldsymbol{x}_{i}' \boldsymbol{\beta}_{j}\right)}{1+\sum_{k=2}^{J} \exp \left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{k}\right)} & (j=2, \cdots, J) \end{array}\right.

# 十四、平稳时间序列

# 1. 时间序列的数字特征

  • k阶自协方差

γkCov(yt,yt+k)=E[(ytμ)(yt+kμ)]\gamma_{k} \equiv \operatorname{Cov}\left(y_{t}, y_{t+k}\right)=\mathrm{E}\left[\left(y_{t}-\mu\right)\left(y_{t+k}-\mu\right)\right.]

  • 样本自协方差:

    γ^k1Tki=1Tk(ytyˉ)(yt+kyˉ)\hat{\gamma}_{k} \equiv \frac{1}{T-k} \sum_{i=1}^{T-k}\left(y_{t}-\bar{y}\right)\left(y_{t+k}-\bar{y}\right)

  • k阶自相关系数(对于严格平稳过程,自相关系数不依赖于时间t只依赖于滞后阶数k,因而被称作自相关函数ACF)

ρkCorr(yt,yt+k)Cov(yt,yt+k)Var(yt)\rho_{k} \equiv \operatorname{Corr}\left(y_{t}, y_{t+k}\right) \equiv \frac{\operatorname{Cov}\left(y_{t}, y_{t+k}\right)}{\operatorname{Var}\left(y_{t}\right)}

  • 样本自相关系数

    ρ^kγ^k/γ^0\hat{\boldsymbol{\rho}}_{k} \equiv \hat{\gamma}_{k} / \hat{\gamma}_{0}

  • k阶偏自相关系数:考虑k期中间各期影响下的条件相关系数(PACF)

    ρk×Corr(yt,yt+kyt+1,,yt+k1)\rho_{k}^{*} \equiv \operatorname{Corr}\left(y_{t}, y_{t+k} \mid y_{t+1}, \cdots, y_{t+k-1}\right)

​ 估计ρ^k×\hat \rho _k^*的方法:OLS估计,然后看ytky_{t-k}前的系数

# 2. AR(p):自回归模型

yt=β0+β1yt1++βpytp+εty_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\varepsilon_{t}

# 2.1 对系数的估计方法

  • OLS:损失p个样本容量
  • Exact MLE: 使用迭代法进行计算,更加精确但通常计算较复杂;且需要假定扰动项N(0,σε2)N(0,\sigma_{\varepsilon}^2)
  • Conditional MLE: 等价于OLS, 适用于样本容量较大的情况,不依赖正态性假定

# 2.2 对滞后阶数的估计方法

  1. 由大到小的序贯t规则(general-to-specific sequential t rule)
  2. 使用信息准则,选择p^\hat p使得AIC, BIC或者HQIC最小化

# 2.3 白噪声的性质

  1. 零期望 :E(εt)=0E(\varepsilon_t)=0
  2. 同方差:Var(εt)=σε2Var(\varepsilon_t)=\sigma_{\varepsilon}^2
  3. 无自相关:Cov(εt,εs)=0,tsCov(\varepsilon_t,\varepsilon_s)=0, t\neq s

# 3. MA(q): 移动平均模型

yt=μ+εt+θ1εt1+θ2εt2++θqεtqy_t=\mu+\varepsilon_t+\theta_1 \varepsilon_{t-1}+\theta_2 \varepsilon_{t-2}+\cdots + \theta_q \varepsilon_{t-q}

# 4. ARMA初识与ACF&PACF判断

yt=β0+β1yt1++βpytp+εt+θ1εt1++θqεtqy_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\cdots+\theta_{q} \varepsilon_{t-q}

  • 估计(p^,q^)(\hat p ,\hat q)
    • AR(p):
      • ACF拖尾
      • PACF截尾
    • MA(q):
      • ACF截尾
      • PACF拖尾
  • 诊断性分析:确认残差为白噪声
    • Q检验,检验残差是否存在自相关

# 5. Autoregressive Distributed Lag Model: ADL(p,q)

yt=β0+β1yt1++βpytp+γ0x0+γ1xt1++γqxtq+εty_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\gamma_0 x_0+\gamma_{1} x_{t-1}+\cdots+\gamma_{q} x_{t-q}+\varepsilon_{t}

  • Note:可使用OLS估计的前提
    • E(ε1y11,y12,,x1,11,x1,12,,xK,11,xK,t2,)=0\mathrm{E}\left(\varepsilon_{1} \mid y_{1-1}, y_{1-2}, \cdots, x_{1,1-1}, x_{1,1-2}, \cdots, x_{K, 1-1}, x_{K, t-2}, \cdots\right)=0 扰动项与所有解释变量的整个历史全部无关
    • 渐进独立的平稳序列
    • 有非零的有限四阶矩
    • 解释变量无完全多重共线性

# 6. 误差修正模型 ECM

  • 基本思想:变量的短期变动向着这个长期均衡关系的部分调整
  • AR(1)的ECM:

Δyt=(1β1)(y×yt1)error correction +εt\Delta y_{t}=\underbrace{\left(1-\beta_{1}\right)\left(y^{*}-y_{t-1}\right)}_{\text {error correction }}+\varepsilon_{t}

  • ADL的ECM:
    • 原ADL: yt=β0+β1yt1+γ0xt+γ1xt1+εty_{t}=\beta_{0}+\beta_{1} y_{t-1}+\gamma_{0} x_{t}+\gamma_{1} x_{t-1}+\varepsilon_{t}
    • 长期关系: y×=β0(1β1)+(γ0+γ1)(1β1)x×y^{*}=\frac{\beta_{0}}{\left(1-\beta_{1}\right)}+\frac{\left(\gamma_{0}+\gamma_{1}\right)}{\left(1-\beta_{1}\right)} x^{*}
      • 长期乘数:θ=γ0+γ11β1\theta=\frac{\gamma_{0}+\gamma_{1}}{1-\beta_{1}}
      • 长期系数: ϕ=β01β1\phi=\frac{\beta_0}{1-\beta_1}
    • ECM:

Δyt=γ0Δxt+(β11)(yt1ϕθxt1)error correction +εt\Delta y_{t}=\gamma_{0} \Delta x_{t}+\underbrace{\left(\beta_{1}-1\right)\left(y_{t-1}-\phi-\theta x_{t-1}\right)}_{\text {error correction }}+\varepsilon_{t}

# 7. MA(\infty)与滞后算子

# 7.1 MA(\infty)

yt=μ+j=0θjεtj,θ0=1y_{t}=\mu+\sum_{j=0}^{\infty} \theta_{j} \varepsilon_{t-j}, \theta_0=1

  • "绝对值可加总"(Absolutely Summable, AS)

# 7.2 滞后算子

Lyt=yt1,L2yt=L(Lyt)=yt2,,Lpyt=ytpL y_{t}=y_{t-1}, L^{2} y_{t}=L\left(L y_{t}\right)=y_{t-2}, \cdots, L^{p} y_{t}=y_{t-p}

  • 特别地,L0yt=1yt=ytL^0y_t=1\cdot y_t=y_t
  • LpLq=Lp+qL^p\cdot L^q=L^{p+q}
  • 差分算子 Δ=1L\Delta=1-L, Δyt=ytyt1=(1L)yt\Delta y_t=y_t-y_{t-1}=(1-L)y_t

# 7.3 AR(p)AR(p)也是MA()MA(\infty)

(1β1LβpLp)yt=β0+εt\left(1-\beta_{1} L-\cdots-\beta_{p} L^{p}\right) y_{t}=\beta_{0}+\varepsilon_{t}

  • 滞后多项式β(L)=1β1LβpLp\beta(L)=1-\beta_1L-\cdots-\beta_pL^p

# 7.4 滤波

α(L)=α0+α1L+α2L2+\alpha(L)=\alpha_0+\alpha_1 L+\alpha_2L^2+\cdots

  • 命题:弱平稳过程经过AS滤波作用后,仍为弱平稳过程
  • 定义:滤波的乘积

δ(L)α(L)β(L)(α0+α1L+α2L2+)(β0+β1L+β2L2+)=α0β0+(α0β1+α1β0)L+(α2β0+α1β1+α0β2)L2+\begin{aligned} \delta(L) & \equiv \alpha(L) \beta(L) \equiv\left(\alpha_{0}+\alpha_{1} L+\alpha_{2} L^{2}+\cdots\right)\left(\beta_{0}+\beta_{1} L+\beta_{2} L^{2}+\cdots\right) \\ &=\alpha_{0} \beta_{0}+\left(\alpha_{0} \beta_{1}+\alpha_{1} \beta_{0}\right) L+\left(\alpha_{2} \beta_{0}+\alpha_{1} \beta_{1}+\alpha_{0} \beta_{2}\right) L^{2}+\cdots \end{aligned}

  • 应用:证明AR(1)AR(1)MA()MA(\infty)

方法一:

yt=β0+β1yt1+εt=β0+β1(β0+β1yt2+εt1)+εt=(β0+β0β1)+β12yt2+β1εt1+εt=(β0+β0β1)+β12(β0+β1yt3+εt2)+β1εt1+εt=β0(1+β1+β12)+β13yt3+β12εt2+β1εt1+εt==β0(1+β1+β12+)+εt+β1εt1+β12εt2+β13εt3+\begin{aligned} y_{t} &=\beta_{0}+\beta_{1} y_{t-1}+\varepsilon_{t} \\ &=\beta_{0}+\beta_{1}\left(\beta_{0}+\beta_{1} y_{t-2}+\varepsilon_{t-1}\right)+\varepsilon_{t} \\ &=\left(\beta_{0}+\beta_{0} \beta_{1}\right)+\beta_{1}^{2} y_{t-2}+\beta_{1} \varepsilon_{t-1}+\varepsilon_{t} \\ &=\left(\beta_{0}+\beta_{0} \beta_{1}\right)+\beta_{1}^{2}\left(\beta_{0}+\beta_{1} y_{t-3}+\varepsilon_{t-2}\right)+\beta_{1} \varepsilon_{t-1}+\varepsilon_{t} \\ &=\beta_{0}\left(1+\beta_{1}+\beta_{1}^{2}\right)+\beta_{1}^{3} y_{t-3}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1} \varepsilon_{t-1}+\varepsilon_{t} \\ &=\cdots \\ &=\beta_{0}\left(1+\beta_{1}+\beta_{1}^{2}+\cdots\right)+\varepsilon_{t}+\beta_{1} \varepsilon_{t-1}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1}^{3} \varepsilon_{t-3}+\cdots \end{aligned}

方法二:

yt=(1β1L)1(β0+εt)=(1+βL+β2L2+)β0+(1+βL+β2L2+)εt=β0(1+β1+β12+)+εt+β1εt1+β12εt2+β13εt3+=β01β1+εt+β1εt1+β12εt2+β13εt3+\begin{aligned} y_{t} &=\left(1-\beta_{1} L\right)^{-1}\left(\beta_{0}+\varepsilon_{t}\right) \\ &=\left(1+\beta L+\beta^{2} L^{2}+\cdots\right) \beta_{0}+\left(1+\beta L+\beta^{2} L^{2}+\cdots\right) \varepsilon_{t} \\ &=\beta_{0}\left(1+\beta_{1}+\beta_{1}^{2}+\cdots\right)+\varepsilon_{t}+\beta_{1} \varepsilon_{t-1}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1}^{3} \varepsilon_{t-3}+\\ &=\frac{\beta_{0}}{1-\beta_{1}}+\varepsilon_{t}+\beta_{1} \varepsilon_{t-1}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1}^{3} \varepsilon_{t-3}+\cdots \end{aligned}

  • Note:
    • (1βL)1=1+βL+β2L2+β3L3+(1-\beta L)^{-1}=1+\beta L + \beta^{2}L^{2}+\beta^{3}L^{3}+\cdots

# 7.5 脉冲响应函数与累积脉冲响应函数

IRF(j)yt+jεt=β1jI R F(j) \equiv \frac{\partial y_{t+j}}{\partial \varepsilon_{t}}=\beta_{1}^{j}

CIRF(k)j=0kyt+jεt\operatorname{CIRF}(k) \equiv \sum_{j=0}^{k} \frac{\partial y_{t+j}}{\partial \varepsilon_{t}}

# 7.6 ARMA(p,q)也是MA()MA(\infty)

yt=β0+β1yt1++βpytp+εt+θ1εt1++θqεtqytβ1LytβpLpyt=β0+εt+θ1Lεt++θqLqεtβ(L)yt=β0+θ(L)εt\begin{array}{c} y_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\cdots+\theta_{q} \varepsilon_{t-q} \\ y_{t}-\beta_{1} L y_{t}-\cdots-\beta_{p} L^{p} y_{t}=\beta_{0}+\varepsilon_{t}+\theta_{1} L \varepsilon_{t}+\cdots+\theta_{q} L^{q} \varepsilon_{t} \\ \beta(L) y_{t}=\beta_{0}+\theta(L) \varepsilon_{t} \end{array}

  • 其中,θ(L)1+θ1L++θqLq\theta(L) \equiv 1+\theta_{1} L+\cdots+\theta_{q} L^{q}

# 8. VAR:向量自回归过程

# 8.1 二元VAR(p)系统