计量经济学的数学基础

# 一、矩阵代数

# 二、专题：矩阵求导术

# 1. 标量对向量求导

# 1.1 定义

\frac{\partial f}{\partial X}=\frac{\partial f}{\partial x_{ij}}

$f$ 对 $X$ 逐元素求导排成与 $X$ 尺寸相同的矩阵

特别地， $X$ 为 $m$ 维列向量，

\frac{\partial}{\partial X}= \begin{pmatrix} \frac{\partial}{\partial x_1} \\ \frac{\partial}{\partial x_2} \\ \vdots \\ \frac{\partial}{\partial x_m} \end{pmatrix}

# 1.2 一些可用的结论

# 1.2.1 线性函数求导

y=a'x=x'a=\sum_{i=1}^{n}a_i x_i

若 $a$ , $b$ 为常数向量，则有：

\frac{\partial{a'x}}{\partial x}=a\\ \frac{\partial{x'b}}{\partial x}=b\\

\text{Notice: 这里注意$a'$与$a$的区别!!!}

# 1.2.2 二次型问题

若 $A$ 为常数矩阵，

A对称：\frac{\partial {x'Ax}}{\partial x}=2Ax \\A非对称：\frac{\partial {x'Ax}}{\partial x}=(A+A')x \\ \ \\ \frac{\partial {x'Ax}}{\partial a_{ij}}=x_i x_j \\ \frac{\partial {x'Ax}}{\partial A}=x\cdot x'

# 1.2.3 行列式求导

\frac{\partial |A|}{\partial a_{ij}}=(-1)^{i+j}|A_{ij}|=c_{ij} \\ \ \\ \ \\ \because\ A_{ij}^{-1}=\frac{|C_{ji}|}{|A|}\\ \therefore\ \frac{\partial ln|A|}{\partial {a_{ij}}}=\frac{(-1)^{i+j}|C_{ji}|}{|A|} \\ \frac{\partial ln|A|}{\partial {A}}=(A^{-1})'

# 2. 向量对向量求导（暂略）

# 三、概率论相关

# 1. 概率论基础

# 2. 多维随机向量的概率分布

# 3. 条件分布

# 4. 随机变量的数字特征：总体矩

# 4.1 离散与连续

# 4.1.1 离散分布

p_k\equiv P(X=x_k)\\ E(X)\equiv \mu \equiv \sum_{k=1}^{\infty}x_k p_k

# 4.1.2 连续分布

\int_{-\infty}^{\infty}f(x)dx=1 \\ E(X)\equiv \mu \equiv \int_{-\infty}^{\infty}xf(x)dx

# 4.2 矩

# 4.2.1 定义

E(g(x))=\int_{-\infty}^{\infty}g(x)f(x)dx

# 4.2.2 概率统计中常用的两类矩

原点矩： $E(X^n)$
中心矩： $E(X-E(X))^n$
- 特别地，
  
  偏度： $E(\frac{x-\mu}{\sigma})^3$
  - 反映不对称性（对称分布的偏度为0）
  - 需注意单位问题（因此做了单位化）
  峰度： $E(\frac{x-\mu}{\sigma})^4$
  - 最高处有多“尖”，最尾部有多“厚”
  - $X\sim N(0,1), \ E(\frac{x-\mu}{\sigma})^4=3$
  - 超额峰度： $E(\frac{x-\mu}{\sigma})^4-3$

# 4.3 条件期望与条件方差

# 4.3.1 条件期望

E(Y|X=x)=E(Y|x)=\int_{-\infty}^{\infty}yf(y|x)dy

Notice: 是关于 $x$ 的函数， $y$ 已被积分掉

# 4.3.2 条件方差

Var(Y|X=x)\equiv Var(Y|x)=\int_{-\infty}^{\infty}[y-E(Y|x)]^{2} f(y|x)dy

# 4.4 多维随机向量的期望、方差

# 4.4.1对向量（矩阵）的期望

E(X)=E\begin{pmatrix}X_1\\X_2\\ \vdots \\ X_n\end{pmatrix}=\begin{pmatrix}E(X_1)\\E(X_2)\\ \vdots \\ E(X_n)\end{pmatrix}

# 4.4.2 协方差矩阵

协方差矩阵

\scriptstyle \begin{aligned} Cov(X,Y)_{m\times n}&=E[(X-E(X))(Y-E(Y))']\\ &=E(XY')-E(X)E(Y)' \\ &=E[\begin{pmatrix}X_1-E(X_1)\\X_2-E(X_2)\\ \vdots \\ X_m-E(X_m)\end{pmatrix}\begin{pmatrix}Y_1-E(Y_1)&Y_2-E(Y_2) &\cdots Y_n-E(Y_n)\end{pmatrix}]\\ &=E\begin{pmatrix}(X_1-E(X_1))(Y_1-E(Y_1)) &(X_1-E(X_1))(Y_2-E(Y_2)) &\cdots&(X_1-E(X_1))(Y_n-E(Y_n))\\(X_2-E(X_2))(Y_1-E(Y_1)) &(X_2-E(X_2))(Y_2-E(Y_2)) &\cdots &(X_2-E(X_2))(Y_n-E(Y_n))\\ \vdots &\vdots &\ddots &\vdots \\ (X_m-E(X_m))(Y_1-E(Y_1)) &(X_m-E(X_m))(Y_2-E(Y_2)) &\cdots &(X_m-E(X_m))(Y_1-E(Y_1))\end{pmatrix}\\ &=\begin{pmatrix}Cov(X_1, Y_1) &Cov(X_1, Y_2) &\cdots&Cov(X_1, Y_n)\\Cov(X_2,Y_1) &Cov(X_2,Y_2) &\cdots &Cov(X_2,Y_n)\\ \vdots &\vdots &\ddots &\vdots \\ Cov(X_m,Y_1) &Cov(X_m,Y_2)&\cdots &Cov(X_m,Y_n)\end{pmatrix} \end{aligned}

特别地，方差协方差矩阵

\begin{aligned} Var(X)_{m\times m}&=E[(X-E(X))(X-E(X))']\\&=E(XX')-E(X)E(X)'\\ &= \begin{pmatrix}Var(X_1) &Cov(X_1, X_2) &\cdots&Cov(X_1, X_m)\\Cov(X_2,X_1) &Var(X_2) &\cdots &Cov(X_2,X_m)\\ \vdots &\vdots &\ddots &\vdots \\ Cov(X_m,X_1) &Cov(X_m,X_2)&\cdots &Var(X_m)\end{pmatrix} \end{aligned}

# 4.4.3 夹心估计量(A、B为常数矩阵)

Cov(AX,BY)=ACov(X,Y)B'\\ Var(AX)=AVar(X)A'

特别地，若A为***对称矩阵***， $Var(AX)=AVar(X)A$

# 4.4.4 矩阵和的方差 $Var(X+Y)$

Var(X+Y)=Var(X)+Var(Y)+Cov(X,Y)+Cov(X,Y)'

# 5. 样本矩：总体矩的参数估计

# 5.1 期望迭代定律

E(Y)=E_{X}[E(Y|X=x)]\\ E(g(Y))=E_X[E(g(Y)|X=x)]

给定 $X=x$ , 先求出 $Y$ 的条件期望
再对 $X$ 求期望
若 $X$ 离散，无条件期望=条件期望的加权平均

$E(Y)=\sum_{i}P(X=x_i)E(Y|x_i)$
- 证明如下： $\begin{aligned} E_{X}[E(Y|x)]&=\sum_{i}P(X=x_i)E(Y|x_i)\\ &=\sum_{i}P(X=x_i)[\sum_{j}P(Y=y_j|x_i)\cdot y_j]\\ &=\sum_{i}P(X=x_i)[\sum_{j}\frac{P(Y=y_j,x=x_i)}{P(X=x_i)}\cdot y_j]\\ &=\sum_{j}[\sum_{i}P(Y=y_j,x=x_i)\cdot y_j]\\ &=E(Y) \end{aligned}$

# 5.2 方差分解定律

\begin{aligned} Var(y)&=Var_{X}[E(y|X)]+E_{X}[Var(y|X)] \\ \ \\ 对于估计量而言：\\ Var(b)&=Var_{X}[E(b|X)]+E_{X}[Var(b|X)] \\ &=E_X[Var(b|X)]\\ &=E_X[\sigma^2(X'X)^{-1}]\\ &=\sigma^2E_X[(X'X)^{-1}] \end{aligned}

# 6. 随机变量无关的三个层次：线性独立—>均值独立—>线性不相关

相互独立： $f(x,y)=f_x(x)f_y(y)$
均值独立： $E(Y|X=x)=E(Y)$
- Notice: 并不意味着X均值独立于Y
- Theorem：若Y均值独立于X，或者X均值独立于Y，则有 $Cov(X,Y)=0$
  $\begin{aligned} Cov(X,Y)&=E[(X-EX)(Y-EY)]\\ &=E_X E_Y[(X-EX)(Y-EY)|X=x]\\ &=E_X [(X-EX)E_Y[(Y-EY)|X=x]]\\ &=E_X[[X-E(X)][E(Y|x)-E(Y)]]\\ &=0 \end{aligned}$
线性不相关： $Cov(x,y)=0$

# 四、统计基础

# 1. 常用连续型统计分布

# 1.1 正态分布

# 1.1.1 一维正态分布

f(x)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{\frac{-(x-\mu)^2}{2\sigma^2}}

# 1.1.2 多维正态分布

f(X_1,X_2,\cdots,X_n)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{1/2}}e^{-\frac{1}{2}(X-\mu)'\Sigma^{-1}(X-\mu)}\\ \ \\ \ \\ \ \\ 其中:\ \Sigma=\begin{pmatrix}Var(X_1) &Cov(X_1, X_2) &\cdots&Cov(X_1, X_n)\\Cov(X_2,X_1) &Var(X_2) &\cdots &Cov(X_2,X_n)\\ \vdots &\vdots &\ddots &\vdots \\ Cov(X_n,X_1) &Cov(X_n,X_2)&\cdots &Var(X_n)\end{pmatrix}

# 1.2 $\mathcal{X}^{2}$ 分布

若 $\{Z_1,Z_2,\cdots,Z_k\}\sim N(0,1)$ ，则：

$\sum_{i=1}^{k}Z_{i}^2 \sim \mathcal{X}^2(k)$
- 期望 $k$ ，方差 $2k$
- if $Z\sim N(0,1), Z^2\sim \mathcal{X}^2(1)$
- 补充：
  
  若 $m$ 维随机变量 $x$ 服从正态分布 $N(\mu, \Sigma)$ ，其中 $\Sigma$ 为非退化矩阵（满秩），则二次型
  $(x-\mu)'\Sigma^{-1}(x-\mu)\sim \chi^2(m)$

# 1.3 t分布

$Z\sim N(0,1)，Y\sim \mathcal{X}^2(k)$ ，且Z与Y相互独立，则

\frac{Z}{\sqrt{Y/k}}\sim t(k)

# 1.4 F分布

$Y_1 \sim \mathcal{X}^(k_1)$ , $Y_2\sim \mathcal{X}^2(k_2)$ , 且 $Y_1,Y_2$ 相互独立，

\frac{Y_1/k_1}{Y_2/k_2}\sim F(k_1,k_2)

如果 $X\sim t(k)$ , 则 $X^2\sim F(1,k)$
F分布与 $\chi^2$ 分布在大样本下是等价的

**命题：假设 $F\sim F(m, n-K)$ **分布，则当 $n\rightarrow\infty$ 时， $mF \stackrel{d}\longrightarrow \chi^2(m)$

# 2. 统计推断相关概念

# 2.1 均方误差

$MSE(\hat{\theta})=E[(\hat{\theta}-\theta)^2]=Var(\hat{\theta})+[Bias(\hat{\theta})]^2$
证明：
$\begin{aligned} MSE(\hat{\theta})&=E[(\hat{\theta}-\theta)^2]\\ &=E\{[\hat{\theta}-E(\hat{\theta})+E(\hat{\theta})-\theta]\}\\ &=E[\hat{\theta}-E(\hat{\theta})]^2 +2E\{[\hat{\theta}-E(\hat{\theta})][E(\hat{\theta})-\theta]\}+E[E(\hat{\theta})-\theta]^2\\ &=Var(\hat{\theta})+2[E(\hat{\theta})-\theta]E[\hat{\theta}-E(\hat{\theta})]+[Bias(\hat{\theta})]^2\\ &=Var(\hat{\theta})+[Bias(\hat{\theta})]^2 \end{aligned}$

# 五、小样本OLS

# 1. OLS推导

# 1.1 标量形式

标准方程组
$\begin{cases} \frac{1}{n}\sum_{i=1}^{n}e_{i}=0 \\ \frac{1}{n}\sum_{i=1}^{n}x_i e_{i}=0 \end{cases}\\ \ \\ \ \\\ \\ e_i=y_i-\hat{\alpha}-\hat{\beta}x_i \\ \ \\ \mathop{min}_{\hat{\alpha},\hat{\beta}} \sum_{i=1}^{n}(y_i-\hat{\alpha}-\hat{\beta}x_i)^2$
推导过程
$\bar{y}=\hat{\alpha}+\hat{\beta}\bar{x}\\ \downarrow \\ \sum x_i[(y_i-\bar{y})-\hat{\beta}(x_i-\bar{x})]=0 \\ \downarrow \\ \sum x_i(y_i-\bar{y})-\hat{\beta}\sum x_i(x_i-\bar{x})=0 \\ \downarrow \\ \hat{\beta}=\frac{\sum x_i(y_i-\bar{y})}{\sum x_i(x_i-\bar{x})}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})(x_i-\bar{x})} \\ \downarrow \\ \hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}$

# 1.2 向量形式

# 1.2.1 代数法

Y=X\hat{\beta}+e \\ \ \\ \begin{aligned} \mathop{min}_{\hat{\beta}}SSR &=\mathop{min}_{\hat{\beta}} (Y-X\hat{\beta})'(Y-X\hat{\beta})\\ &=\mathop{min}_{\hat{\beta}}(Y'Y-Y'X\hat{\beta}-\hat{\beta}'X'Y+\hat{\beta}X'X\hat{\beta})\\ &=\mathop{min}_{\hat{\beta}}(Y'Y-\underbrace{2Y'X\hat{\beta}}_{scalar!!!}+\hat{\beta}X'X\hat{\beta}) \\ \end{aligned} \\ \ \\ \frac{\partial SSR}{\partial \hat{\beta}}=-2X'Y+2X'X\hat{\beta}=0 \\ \text{Notice: 这里用到了 二、1.2中的矩阵求导知识} \\ \hat{\beta}=(X'X)^{-1}X'Y

# 1.2.2 几何法

X'e= \begin{pmatrix} 1 &1 & \cdots &1 \\ x_{12} &x_{22} &\cdots &x_{n2} \\ \vdots &\vdots &\ddots &\vdots \\ x_{1k} &x_{2k} &\cdots &x_{nk} \end{pmatrix}_{k\times n}\cdot \begin{pmatrix} e_1 \\ e_2 \\ \vdots \\ e_n \end{pmatrix}_{n\times 1}=0 \\ \ \\ \ \\ e=Y-X\hat{\beta}\\ X'(Y-X\hat{\beta})=0 \\ \hat{\beta}=(X'X)^{-1}X'Y

# 2. Projection Matrix, Residual Making Matrix and Frisch-Waugh-Lovell Theorem

# 2.1 推导

\hat{y}=X\hat{\beta}=X(X'X)^{-1}X'Y\\ Set\ P_x=X(X'X)^{-1}X'\ [Projection\ Matrix]\\ e=y-P_{x}y=[I-P_x]y \\ Set\ M_x=I-P_x=I-X(X'X)^{-1}X'\ [Residual\ Making\ Matrix]\\ \therefore\ e=M_x y=M_xu\\ \ \ \ \hat{y}=P_x y

# 2.2 $P_x, M_x$ 性质

$P_x+M_x=I$
对称性： $P_x=P_x'$ , $M_x=M_x'$
等幂矩阵： $P_x P_x=P_x, \ M_x M_x=M_x$ $P_{x} P_{x} = P_{x}, M_{x} M_{x} = M_{x}$
- 勾股定理： $y'y=y'P'Py+y'M'My=\hat{y}'\hat{y}+e'e$
$PX=X,\ Pe=0,\ MX=0$
$P_x$ 与 $M_x$ 正交： $P_xM_x=M_xP_x=0$

# 2.3 Frisch-Waugh-Lovell Theorem

# 2.3.1 描述

在向量 $\vec{y}$ 对两组变量 $X_1, X_2$ 的线性最小二乘回归中，将 $\vec{y}$ 对 $X_1$ 单独做回归并得到残差，然后将 $X_2$ 中的每列对 $X_1$ 做回归并得到一组残差，将前者得到的残差对后者得到的残差集再次回归，得到 $\hat{\beta_2}$ [Partial Out]。

# 2.3.2 原理

X=[X_1,X_2]\\ y=X_1\beta_1+X_2 \beta_2+u\\ Define\ P_1=X(X'X)^{-1}X'\\ M=I-P_1\\ M_1 y=\underbrace{M_1 X_1\beta_1}_{=0}+M_1X_2 \beta_2+M_1u \\ 其中：\\ \begin{aligned} &M_1y: y对X_1做回归所得的残差向量 \\ &M_1X_2:X_2每一列对X_1做回归所得的矩阵（向量集） \end{aligned}

# 2.3.3 更正式的推导：分块回归与偏回归

描述
$y=X\beta+u=\begin{pmatrix}X_1&X_2\end{pmatrix} \begin{pmatrix}\beta_1 \\ \beta_2\end{pmatrix}+u=X_1\beta_1+X_2\beta_2+u$
正规方程组
$\begin{pmatrix}X_1{'}X_1 &X_1{'}X_2\\ X_2{'}X_1 &X_2{'}X_2 \end{pmatrix}\begin{pmatrix}\hat{\beta_1}\\ \hat{\beta_2} \end{pmatrix}=\begin{pmatrix}X_1{'}{y}\\ X_2{'}{y} \end{pmatrix}$
正交分解定理
$\hat{y}=\frac{u_1 y}{u_1 u_1}u_1+\frac{u_2 y}{u_2 u_2}u_2+\cdots+\frac{u_k y}{u_k u_k}u_k$
$b_2$ 的推导
$X_1{'}X_1 b_1+X_1{'}X_2b_2=X_1{'}Y\\ X_2{'}X_1 b_1+X_2{'}X_2b_2=X_2{'}Y\\ \ \\ b_1=(X_1{'}X_1)^{-1}X_1{'}Y-(X_1{'}X_1)^{-1}X_1{'}X_2{'}b_2=(X_1{'}X_1)^{-1}X_1{'}(Y-X_2b_2)\\ \ \\ X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}Y-X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}X_2b_2+X_2{'}X_2b_2=X_2{'}Y\\ \ \\ \begin{aligned} \therefore\ b_2&=[X_2{'}X_2-X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}X_2]^{-1}\cdot (X_2{'}Y-X_2{'}X_1(X_1{'}X_1)^{-1}X_1{'}Y)\\ &=[X_2{'}(I-X_1(X_1{'}X_1)^{-1}X_1{'})X_2]^{-1}\cdot (X_2{'}(I-X_1(X_1{'}X_1)^{-1}X_1{'})Y)\\ &=(X_2{'}M_1X_2)^{-1}(X_2M_1Y) \end{aligned} \\ \ \ \\ \begin{aligned} &Define:\\&X_2^{*}=M_1X_2 \\&Y^{*}=M_1Y \\ And\ \ &b_2=(X_2^{*}{'}X_2^{*})^{-1}(X_2^{*}Y) \end{aligned}$

# 3. OLS估计量的性质的证明

# 3.1 无偏性 $E(\hat{\beta})=\beta$

证明：

$\hat{\beta}=(X'X)^{-1}X'Y=(X'X)^{-1}X'(X\beta+u)=\beta+(X'X)^{-1}X'u$
$E(\hat{\beta})=\beta+(X'X)^{-1}X'E(u)=\beta+(X'X)^{-1}X'E_XE(u|X)=\beta$

一阶矩假定： $E(u)=E_X(E(u|X))=0\leftarrow E(u|X)=0\rightarrow Cov(X,u)=0$

证明：
$\begin{aligned} Cov(X,u)&=E(Xu)-E(X)E(u)\\ &=E(Xu)\\ &=E_X(XE(u|X))\\ &=0 \end{aligned}$

二阶矩假定(球形扰动项）【与无偏性无关】： $Var(u)=\sigma^2I$ OR $Var(Y)=\sigma^2I$

\begin{aligned} Var(\hat{\beta})&=Var(\beta+(X'X)^{-1}X'u)\\ &=Var((X'X)^{-1}X'u)\\ &=(X'X)^{-1}X'Var(u)X(X'X)^{-1}\\ &=\sigma^2(X'X)^{-1} \end{aligned}

# 3.2 一致性

Pr(|\hat{\beta}_n-\beta|>\varepsilon)\rightarrow0 \ \ as\ \ n\rightarrow\infty \\

证明：
$\hat{\beta}_n-\beta=(X'X)^{-1}X'u=[\frac{1}{n}\sum_{i=1}^n x_i x_i']^{-1}[\frac{1}{n}\sum_{i=1}^n x_i u_i]\stackrel{P}\longrightarrow E(x_ix_i')^{-1}E(x_iu_i)$
注意：这里未用二阶矩！也就是说异方差、自相关问题并不影响一致性！

# 3.3 另外的讨论：对 $\sigma^2$ 的无偏估计量 $\hat{\sigma}^2$

\hat{\sigma}^2=\frac{\hat{u}'\hat{u}}{n-K}

证明： $\begin{aligned} E(s^2|X)&=E(\frac{\hat{u}'\hat{u}}{n-K}|X)\\&=E(\frac{u'Mu}{n-K}|X)\\ &=\frac{1}{n-K}E(u'Mu|X) \end{aligned}\\ \begin{aligned} \\ \because E(u'Mu|X)&=E(trace(u'Mu|X))\\ &=traceE(Muu'|X)\\ &=trace[M\sigma^2I_n]\\ &=\sigma^2trace(M)\\ &=\sigma^2trace(I_n-X(X'X)^{-1}X')\\ &=\sigma^2(n-K) \end{aligned}\\ \begin{aligned} \therefore E(s^2)&=E_XE(s^2|X)\\ &=\sigma^2 \end{aligned}$

# 4. Gauss-Markov Theorem

# 4.1 描述

当一阶矩假定、二阶矩假定都满足的时候，相比于其他线性无偏估计量，OLS估计量是最有效的。

# 4.2 Classical Linear Regression Model (CLRM) Assumptions

线性（关于 $\beta$ )
解释变量随机选取
不存在严格多重共线性，即 $X$ 满列秩： $rank(X)=k$
一阶矩假定：自变量外生性要求
- 小样本OLS（严格外生性假定）: $E(u_i|X)=0$ , 意味着$Cov(u_i,x_{jk})=0\ \forall j,k $
- 大样本OLS (放松的假定——同期不相关假定): $E(u_i|X)=c$ , $E(u_i)=E_x(u_i|X)=E_x(c)=0$
二阶矩假定：球形扰动项 【违背后OLS估计量依旧无偏、一致，但就不是BLUE了】

Var(u_i|X)=\sigma^2

\begin{aligned} Var(u_i|X)&=E(uu'|X) \\ &=\begin{pmatrix} \sigma^2 &0 &\cdots &0 \\ 0 &\sigma^2 &\cdots &0 \\ \vdots&\vdots&\ddots&\vdots \\ 0 &0 &\cdots &\sigma^2 \end{pmatrix} \\ &=\sigma^2I \end{aligned}

注意：正态性假设并非CLRM假定之一，但对于小样本OLS的假设检验很关键

# 4.3 Gauss-Markov定理的证明

假设： $\hat{\beta}$ 为任一线性无偏估计
需证明： $Var(b|X)\leq Var(\hat{\beta}|X)$

由于线性假定，故有 $\hat \beta=C_{k\times n}y$
$\begin{aligned} &\because\ b=Ay, \ A=(X'X)^{-1}X'\\\ \\ &Define\ D\equiv C-A\\ \ \\ &\therefore\ \hat \beta=Cy=(A+D)y=D(X\beta+u)+b=DX\beta+Du+b\\ &\therefore\ \beta=E(\hat \beta |X)=E(DX\beta+Du+b|X)=DX\beta+\beta \\ &\therefore\ DX=0 \\ &\therefore\ \hat \beta=Du+b \\ &\therefore\ \hat{\beta}-\beta=(D+A)u \\ &\therefore\ Var(\hat{\beta}|X)=Var(\hat{\beta}-\beta|X)=Var((D+A)u|X)\\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =(D+A)Var(u|X)(D+A)' \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sigma^2(D+A)(D'+A')\\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sigma^2(DD'+(X'X)^{-1})\\ &\therefore\ Var(\hat{\beta}|X)-Var(b|X)=\sigma^2DD' \\ \ \\&Notice: DD'是半正定矩阵！！！ \end{aligned}$

# 5. $R^2$ 拟合优度：相关的讨论

# 5.1 残差平方和的另一二次型表示

e'e=Y'M'MY=Y'MY=Y'e=e'Y \\ \ \\

# 5.2 与均值相关的等幂矩阵 $M^0$

x=\begin{pmatrix} x_1 \\ x_2 \\ \vdots\\ x_n\end{pmatrix} \\ \ \\ \bar{x}=\frac{1}{n}i'x\\ \ \\ i\bar{x}=i\frac{1}{n}i'x=\begin{pmatrix} \bar{x} \\ \bar{x} \\ \vdots\\ \bar{x}\end{pmatrix} =\frac{1}{n}ii'x\\ \ \\ \therefore\ \begin{pmatrix} x_1-\bar{x}\\ x_2-\bar{x} \\ \vdots\\ x_n-\bar{x}\end{pmatrix} =[x-i\bar{x}]=[x-\frac{1}{n}ii'x]\\ \ \\ \ [x-\frac{1}{n}ii'x]=[I-\frac{1}{n}ii']x=M^0x \\ \ \\ M^0=I-\frac{1}{n}ii' \\ \ \\ M^0i=0

# 5.3 均值离差和

\sum_{i=1}^{n}(x_i-\bar{x})=i'[M^0x]=0'x=0

# 5.4 均值的离差平方和

\begin{aligned} \sum_{i=1}^{n}(x_i-\bar{x})^2&=\sum_{i=1}^{n}x_i^2-n\bar{x}^2\\ &=(x-\bar{x})'(x-\bar{x})\\ &=(M^0x)'(M^0x)\\ &=x'M^{0}{'}M^0x \\ &=x'M^0x \end{aligned}

总结：\\ \begin{pmatrix} \sum_{i=1}^{n}(x_i-\bar{x})^2 &\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\\ \sum_{i=1}^{n}(y_i-\bar{y})(x_i-\bar{x}) &\sum_{i=1}^{n}(y_i-\bar{y})^2 \end{pmatrix}= \begin{pmatrix} x'M^0x &x'M^0y\\ y'M^0x &y'M^0y \end{pmatrix}

# 5.5 $R^2$ 推导

\begin{aligned} &\because\ y_i-\bar{y}=\hat{y}_i-\bar{y}+e_i\\ &\therefore\ M^0y=M^0Xb+M^0e \\ &\because\ e'M^0X=e'X=0\\ &\because\ y'M^0y=(Xb)'M^0Xb+e'e=\hat{y}M^0\hat{y}+e'e\\ &\therefore\ SST=SSE+SSR \\ \ \\ &第一种表示方式：R^2=\frac{SSE}{SST}=\frac{(Xb)'M^0Xb}{y'M^0y}=1-\frac{SSR}{SST}=1-\frac{e'e}{y'M^0y}\\ \ \\ \ \\ &\because\ e=M_x y=M_x u \\ &\therefore\ e'e=u'M_xu \\ \ \\ &第二种表示方式： R^2=1-\frac{u'M_xu}{y'M^0y} \\ \ \\ \ \\ \ \\ &\because\ (Xb)'M^0Xb=\hat{y}'M^0\hat{y}\\ &\hat{y}=Xb,y=\hat{y}+e,M^0e=e,X'e=0 \\ &\therefore\ \hat{y}'M^0\hat{y}=\hat{y}'M^0(y-e)=\hat{y}'M^0y-\hat{y}'M^0e=\hat{y}'M^0y \\ \\ \ &第三种表示方式:R^2=\frac{\hat{y}'M^0\hat{y}}{y'M^0y}= \frac{\hat{y}'M^0y}{y'M^0y}\cdot \frac{\hat{y}'M^0y}{\hat{y}'M^0\hat{y}}=\frac{[\sum(\hat{y}_i-\bar{y})(y_i-\bar{y})]^2}{\sum(y_i-\bar{y})^2 \sum(\hat{y}_i-\bar{y})^2} \end{aligned}

# 5.6 Adjusted $R^2$

\bar{R}^2=1-\frac{e'e/(n-K)}{y'M^0y/(n-1)}=1-\frac{n-1}{n-K}(1-R^2)

定理：在一个多元回归中，若一个回归变量 $X$ $X$ 的 $t$ $t$ 值大于1，将这个变量去掉将导致 $\bar{R}^2$ $\overset{ˉ}{R}^{2}$ 减小
- 证明：
  
  $R_K^2为全变量回归后的拟合优度；R_1^2为省略x_K后的拟合优度$
  $\begin{aligned} &R_K^2=1-\frac{e'e}{y'M^0y}\\ &R_1^2=1-\frac{e_1{'}e_{1}}{y'M^0y} \\ &\bar{R}_K^2=1-\frac{n-1}{n-K}(1-R_K^2)\\ &\bar{R}_1^2=1-\frac{n-1}{n-K+1}(1-R_1^2)\\ &\bar{R}_K^2-\bar{R}_1^2=\frac{n-1}{n-K+1}\frac{e_1{'}e_{1}}{y'M^0y}-\frac{n-1}{n-K}\frac{e'e}{y'M^0y} \end{aligned}$
  若剔除一个解释变量后调整 $R^2$ 变小， $\bar{R}_K^2-\bar{R}_1^2>0$ , 即要求 $(n-K)e_1'e_1>(n-K+1)e'e$ , 又因为:
  $e_1'e_1=e'e+b_K^2(X_K'M^1X_K)\\ e'e=(n-K)s^2\\ \therefore b_K^2(X_K'M^1X_K)>1\\ 定理得证。$
- 补充：为什么 $e_1'e_1=e'e+b_K^2(X_K'M^1X_K)$ ?
```
参见“偏回归”一章，这也说明了为何增加解释变量后$R^2$只增不减。
```

# 5.7 证明 $SST=SSR+SSE$ ：标量形式

证明： $\sum(y_i-\bar y)^2=\sum(\hat{y}_i-\bar{y})^2+\sum e_i^2$

\begin{aligned} \sum(y_i-\bar y)^2&=\sum(y_i-\hat{y}_i+\hat{y}_i-\bar y)^2 \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2\sum(y_i-\hat{y}_i)(\hat{y}_i-\bar{y}) \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2\sum(y_i-\hat{y}_i)(a+bx_i-\bar{y}) \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2[\sum(y_i-\hat{y}_i)(a-\bar{y})+b\sum(y_i-\hat{y}_i)x_i] \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2+2[\sum(y_i-a-bx_i)(a-\bar{y})+b\sum(y_i-a-bx_i)x_i] \\&=\sum(y_i-\hat y)^2+\sum(\hat{y}_i-\bar{y})^2 \\&=\sum(\hat{y}_i-\bar{y})^2+\sum e_i^2 \end{aligned}

# 5.8 对单个系数的t检验

$t$ 统计量的分布
$t_k\equiv\frac{b_k-\bar{\beta_{k}}}{SE(b_k)}\equiv\frac{b_k-\bar{\beta_{k}}}{\sqrt{s^2(X'X)_{kk}^{-1}}}\sim t(n-K)$
第一类错误vs第二类错误
- 第一类错误： $P(reject\ H_0|H_0)$
- 第二类错误： $P(accept\ H_0|H_1)$ $P (a c c e p t H_{0} ∣ H_{1})$
  - $1-P(accept\ H_0|H_1)$ ：统计检验的效能/势（power）

# 5.9 对线性假设的F检验

检验的原假设 $H_0:R\beta=r$
F统计量的分布
$F\equiv\frac{(Rb-r)'[R(X'X)^{-1}R']^{-1}(Rb-r)/m}{s^2}\sim F(m,n-K)$

# 5.10 F统计量的似然比原理表达式

F=\frac{(e^*{'}e^*-e'e)/m}{e'e/(n-K)}

# 5.11 预测

预测点的精确值
$y_0=x_0^{'}\beta+\varepsilon_0$
预测误差
$\hat{y}_0-y_0=x_0^{'}(b-\beta)-\varepsilon_0$
预测误差的方差
$Var(\hat{y}_0-y_0)=Var(\varepsilon_0)+Var[x_0'(b-\beta)]=\underbrace{\sigma^2}_{y_0本身的不确定性}+\underbrace{\sigma^2x_0'(X'X)^{-1}x_0}_{抽样误差}$
扰动项服从正态分布 $\hat{y}_0-y_0\sim N(0,\sigma^2+\sigma^2x_0'(X'X)^{-1}x_0)$
- $\sigma^2$ 未知

\frac{\hat{y}_0-y_0}{s\sqrt{1+x_0'(X'X)^{-1}x_0}}\sim t(n-K)

# 六、大样本OLS：渐进性质

# 1. 多重共线性&解决方式之一：增大样本量

# 1.1 概念：完全与非完全

Perfect multicollinearity - "Dummy variable trap"- X'X不可逆
Imperfect multicollinearity - "model specification problem"- $SE(\hat{\beta}_{OLS})$ 过高导致数据不显著。数据稍一变，估计值就会大变。
- 但此时OLS依旧是BLUE！

# 1.2 诊断方式

$X'X$ $X^{'} X$ 是否满秩?
- 否，完全多重共线性
- 是
  - $R^2$ 或 $F$ 高，但单个变量很少会显著
  - 解释变量的高相关性：用 $x_j$ $x_{j}$ 对 $\{x_1,x_2,...x_k\}$ ${x_{1}, x_{2}, . . . x_{k}}$ 进行回归，发现 $R_j^2$ $R_{j}^{2}$ 较高
    - $Var(\hat{\beta}_k|X)=\frac{\sigma^2}{(1-R_k^2)S_k}$ , $S_k=\sum_{i=1}^n (x_{ik}-\bar{x}_k)^2$
    - 方差膨胀因子： $VIF_k=\frac{1}{1-R_k^2}$ , 原则上 $max\{VIF_1, VIF_2,...,VIF_k\}\leq 10$

# 1.3 Remedies

最优方法：如果可能，增加样本观测量(more data)
扔掉一个变量（但有可能导致遗漏变量偏差）
标准化： $\tilde{x}\equiv \frac{x-\bar{x}}{S_x}$

# 2. 为何需要大样本理论？

小样本理论的假设过强
- 小样本理论要求严格外生性： $Cov(u_i,x_{jk})=0\ \forall j,k$
- 但对于 $AR(1)$ $A R (1)$ 而言，这意味着解释变量与扰动项的过去、现在、未来全部正交
  - $y_t=\rho y_{t-1}+\varepsilon_t,\ (t=1,2,...,T)$
  - 严格外生性要求， $Cov(y_{t-1},\varepsilon_i)\ (i=1,2,...,T)$ , 但是， $Cov(y_t,\varepsilon_t)=Cov(\rho y_{t-1}+\varepsilon_t,\varepsilon_t)=Var(\varepsilon_t)>0$
  - 大样本仅要求解释变量和同期的扰动项不相关， $Cov(y_{t-1},\varepsilon_t)=0$
扰动项服从正态分布的假设过强
- 大样本不需假设分布，而是使用CLT得到渐进正态
统计量的精确分布难以推导
Notice: 大样本理论的缺陷
- 通常认为 $n\geq30,通常100以上$

# 3. 随机收敛

# 3.1 依概率收敛

$\{x_n\}_{n=1}^\infty=\{x_1,x_2,x_3,...\}$ 依概率收敛于常数a

记 $plim\ x_n=a$ , $x_n\stackrel{P}\longrightarrow a$

若对于任意 $\varepsilon>0$ , 当 $n\rightarrow\infty$ 时，都有 $limP(|x_n-a|>\varepsilon)=0$

随机变量间的收敛
- $x_n\stackrel{P}\longrightarrow x$ if $\{x_n-x\}_{n=1}^{\infty}$ 依概率收敛到0
随机向量间的收敛
- $plim\ \vec{x_n}=\vec{x}$

# 3.2 依均方收敛

$limE(x_n)=a$
- $E(x_1),E(x_2),...,E(x_n)\rightarrow a$
$limVar(x_n)=0$
- $Var(x_1),Var(x_2),...,Var(x_n)\rightarrow 0$
证明：依均方收敛——>以概率收敛
- $P(|x_n-E(x_n)|\geq\varepsilon)\leq\frac{Var(x_n)}{\varepsilon^2}\\ \mathop{lim}_{n\rightarrow\infty}P(|x_n-E(x_n)|\geq\varepsilon)\leq\mathop{lim}_{n\rightarrow\infty}\frac{Var(x_n)}{\varepsilon^2}=0$

# 3.3 依分布收敛

$\{x_n\}_{n=1}^{\infty}$ 与随机变量x的累积分布函数分别记为 $F_n(x)$ 和 $F(x)$

if $ \forall x $, 都有$ limF_n(x)=F(x) $, 则称$ x_n\stackrel{d}\longrightarrow x $, 并称x为$ {x_n}$的渐进分布

例如：t分布的渐进分布是正态分布
- $t(k)\stackrel{d}\longrightarrow N(0,1)$

# 3.4 渐进正态：定义

if\ x_n\stackrel{d}\longrightarrow x, 且x\sim Normal(),则称x_n为渐进正态

定理：

$x_n\stackrel{d}\longrightarrow x$ , 且 $g(\cdot)$ 是连续函数，则 $g_n(x)$ 的渐进分布就是 $g(x)$ , 即 $g_n(x)\stackrel{d}\longrightarrow g(x)$

# 3.5 各随机收敛的关系

依均方收敛\rightarrow依概率收敛\rightarrow 依分布收敛

# 4. 大样本理论的工具：大数定律&CLT

# 4.1 大数定律

【强大数定律：依均方收敛】当样本容量 $n$ 很大时，样本均值趋于总体均值。

【切比雪夫大数定律：依概率收敛】

# 4.2 中心极限定理（CLT）

不管 $\{x_n\}_{n=1}^{\infty}$ 具体分布，当 $n\rightarrow\infty$ 时，样本均值 $\bar{x_n}$ 的渐进分布都是正态分布【但必须是iid】

\frac{\bar{x}_n-\mu}{\sqrt{\frac{\sigma^2}{n}}}\stackrel{d}\longrightarrow N(0,1)\Rightarrow \bar{x}_n \stackrel{d}\longrightarrow N(\mu, \sigma^2/n)\\ 变形：\\ \sigma(\frac{\bar{x}_n-\mu}{\sqrt{\frac{\sigma^2}{n}}})\stackrel{d}\longrightarrow \sigma N(0,1)\\ \frac{\bar{x}_n-\mu}{\sqrt{\frac{1}{n}}}\stackrel{d}\longrightarrow N(0,\sigma^2)\\ Root-n\ Convergence:\ \sqrt{n}(\bar{x}_n-\mu)\stackrel{d}\longrightarrow N(0,\sigma^2)

$\bar{x}_n-\mu$ 趋向0的速度大约为: $\frac{1}{\sqrt{1}}, \frac{1}{\sqrt{2}},..., \frac{1}{\sqrt{n}}$
推广到多维的中心极限定理
$\sqrt{n}(\vec{\bar{x}_n}-\vec{\mu})\stackrel{d}\longrightarrow N(\vec{0}, \Sigma)$

# 5. 统计量的大样本性质

# 5.1 一致估计量

plim\ \hat{\beta}_n=\beta\ [依概率收敛]

# 5.2 渐进正态与渐近方差

\sqrt{n}(\hat{\beta}_n-\beta)\stackrel{d}\longrightarrow N(0,\Sigma)

$\sigma^2$ 为渐近方差，记为 $Avar(\hat{\beta}_n)$

# 5.3 渐进有效性

若 $Avar(\hat{\beta}_n)<Avar(\tilde{\beta}_n)$ , 则称 $\hat{\beta}_n$ 比 $\tilde{\beta}_n$ 更为渐进有效

# 5.4 均方误差

MSE(\hat{\beta})\equiv E[(\hat{\beta}-\beta)^2]

证明： $MSE(\hat{\beta})=Var(\hat{\beta})+[Bias(\hat{\beta})]^2$
$MSE(\hat{\beta})\equiv E[(\hat{\beta}-\beta)^2]=E[(\hat{\beta}-E(\hat{\beta})+E(\hat{\beta})-\beta)^2]=Var(\hat{\beta})+[Bias(\hat{\beta})]^2$
多维形式： $MSE(\hat{\beta})=E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)']=Var(\hat{\beta})+[Bias(\hat{\beta})][Bias(\hat{\beta})]'$

# 6. 大样本OLS假定

假定1：线性假定
假定2： $（K+1)$ 维随机过程 $\{y_i,x_{i1},...,x_{ik}\}$ 渐进独立平稳，故适用大数定律与CLT
假定3：同期外生性 $E(x_{ik }u_i)=0,\forall i,k$
假定4：秩条件：X满列秩
假定5：定义如下向量——
$g_i=x_i\varepsilon_i=\begin{pmatrix}x_{i1}\\x_{i2}\\ \vdots\ \\ x_{iK} \end{pmatrix}\varepsilon_i$
$g_i$ 为鞅差分序列，且其协方差矩阵 $S=E[g_ig_i']=E(\varepsilon_i^2x_ix_i')$ 为非退化矩阵

Notice：无需假定严格外生与正态随机扰动项！

假定6：解释变量的四阶矩存在—— $E[(x_{ik}x_{ij})^2]$ 存在且为有限 $（\forall i,j,k）$

# 7. OLS的大样本性质

由于 $X=\begin{pmatrix}x_1'\\x_2'\\ \vdots \\x_n'\end{pmatrix}$ ,故 $X'X=\begin{pmatrix}x_1&x_2& \cdots &x_n\end{pmatrix}\begin{pmatrix}x_1'\\x_2'\\ \vdots \\x_n'\end{pmatrix}=\sum_{i=1}^n[x_ix_i']_{K\times K}$

定义 $S_{XX}=\frac{1}{n}X'X=\sum\frac{1}{n}x_ix_i'$

另一方面， $X'y=\begin{pmatrix}x_1&x_2& \cdots &x_n\end{pmatrix}\begin{pmatrix}y_1\\y_2\\ \vdots \\y_n\end{pmatrix}=\sum_{i=1}^nx_iy_i$

$\therefore\ b=(X'X)^{-1}X'y=S_{XX}^{-1}S_{XY}$

性质一： $\hat{\beta}$ 一致估计量 $plim\ \hat{\beta}_n=\beta$
性质二： $\hat{\beta}$ 服从渐进正态分布（为进行统计推断）

$\sqrt{n}(\hat{\beta}_n-\beta)\stackrel{d}\longrightarrow N(0,Avar(\hat{\beta}))$

$Var(\hat{\beta}|X)=(X'X)^{-1}X'Var(u|X)X(X'X)^{-1}$

$Avar(\hat{\beta})=[E(x_ix_i')]^{-1}S[E(x_ix_i')]^{-1}$ , 其中 $S\equiv E(g_ig_i')=E(\varepsilon_i^2 x_ix_i')$

我们讨论下扰动项的协方差矩阵 $Var(u|X)$ :异方差与自相关问题
性质三：假设 $\hat S$ 为 $S$ 的一致估计量，则 $S_{XX}^{-1}\hat S S_{XX}^{-1}$ 是 $Avar(\hat{\beta})$ 的一致估计量

证明：大样本下 $s^2$ 是无条件方差 $E(\varepsilon_i^2)=\sigma^2$ 的一致估计量

\begin{aligned} s^2&\equiv \frac{e'e}{n-K}=\frac{\varepsilon'M\varepsilon}{n-K}=\frac{\varepsilon'[I_n-X(X'X)^{-1}X']\varepsilon}{n-K}\\ &=\frac{1}{n-K}[\varepsilon'\varepsilon-\varepsilon'X(X'X)^{-1}X'\varepsilon]\\ &=\frac{n}{n-K}[\frac{\varepsilon'\varepsilon}{n}-\frac{\varepsilon'X(X'X)^{-1}X'\varepsilon}{n}]\\ &=\frac{n}{n-K}[\frac{1}{n}\sum\varepsilon_i^2-\bar{g}S_{XX}^{-1}\bar{g}]\\ &\mathop{\longrightarrow}_{n\rightarrow \infty}\sigma^2 \end{aligned}

# 8. 线性假设的大样本检验

# 8.1 检验单个系数： $H_0:\beta_k=\bar{\beta}_k$

t_k=\frac{\sqrt{n}(b_k-\bar{\beta}_k)}{\sqrt{\widehat{Avar}(b_k)}}=\frac{b_k-\bar{\beta}_k}{\sqrt{\frac{1}{n}\widehat{Avar}(b_k)}}\equiv\frac{b_k-\bar{\beta_k}}{SE^*(b_k)}\stackrel{d}\longrightarrow N(0,1)

{SE^*(b_k)}\equiv \sqrt{\frac{1}{n}\widehat{Avar}(b_k)}=\sqrt{\frac{1}{n}(S_{XX}^{-1}\hat{S}S_{XX}^{-1})_{kk}}

异方差稳健的标准误

统计量 $t_k$ 服从标准正态分布，而不是t分布！！！

命题：在同方差的假定下，稳健标准误还原为普通标准误

证明：条件同方差意味着 $E(\varepsilon_i^2|x_i)=\sigma^2>0$ ，根据期望迭代定律：

S\equiv E(x_ix_i'\varepsilon_i^2)=E_{x_i}E(x_ix_i'\varepsilon_i^2|x_i)=E_{x_i}[x_ix_i'E(\varepsilon_i^2|x_i)]=\sigma^2E(x_ix_i')\\ \begin{aligned} \because& s^2\stackrel{p}\longrightarrow \sigma^2, S_{XX}\stackrel{p}\longrightarrow E(x_ix_i')\\ \therefore&\ s^2S_{XX}\text{是}S\text{的一致估计量} \\ \therefore&\ \widehat{Avar}(b)=S_{XX}^{-1}(s^2S_{XX})S_{XX}^{-1}=ns^2(X'X)^{-1} \\ \therefore&\ SE^*(b_k)=\sqrt{\frac{1}{n}\widehat{Avar}(b_k)}=\sqrt{\frac{1}{n}ns^2(X'X)_{kk}^{-1}}=\sqrt{s^2(X'X)_{kk}^{-1}} \end{aligned}

# 8.2 检验线性假设： $H_0: R\beta=r$ ，其中 $R$ 满行秩

W\equiv [\sqrt{n}(Rb-r)]'[R \widehat{Avar}(b)R']^{-1}[\sqrt{n}(Rb-r)]\stackrel{d}\longrightarrow \chi^2(m)

# 七、对二阶矩的破坏：异方差与自相关问题

# 1. 异方差问题

# 1.1 问题起源

Var(u|X)\equiv\Sigma=\begin{pmatrix}\sigma_1^2 &0 &\cdots &0\\ 0 &\sigma_2^2 &\cdots &0 \\ 0 &0 &\ddots &0\\ 0 &0 &\cdots &\sigma_n^2\end{pmatrix}

当高的X值是高的Y值的必要不充分条件时，可能存在异方差
经典的异方差问题：Grouped data
$Var(u_g)=Var(\frac{1}{N_g}\sum_{i}u_{gi})=\frac{1}{N_{g}}\sigma^2$

# 1.2 异方差的后果

Var(u)=\Sigma\neq\sigma^2I \\ Var(\hat{\beta}|X)=(X'X)^{-1}X'\Sigma X(X'X)^{-1}

OLS给出的对于方差 $Var(u)$ 的估计是"downward bias", 就是说比真实的误差方差小，进而会导致“过度拒绝”

# 1.3 如何发现异方差

方法一：残差图
- 残差 $e_i$ 与拟合值 $\hat{y}_i$ 的散点图
- 残差 $e_i$ 与某个解释变量 $x_{ik}$ 的散点图
方法二：做检验
- 方式一：Goldfeld-Quandt Test (G-Q Test)
  - 基本思想：If the variances of the errors increase as X increases, we can compare the variances corresponding to the smallest X’s with the variances corresponding to the largest X’s and test whether they are statistically different.
  - 适用场景：其中一个解释变量被认为是导致了异方差的时候
  - 问题：当异方差的形态不是”大的大，小的小“就会出问题
- 步骤：
  1. Divide the sample observations into three sub-samples (with m1, m2, m3 observations) and omit the middle sample
  2. Estimate with the OLS on the first and third sub-sample; collect the SSR(iduals) for each model, SSR1 and SSR3
  3. The Goldfeld-Quandt test statistic: $GQ=\frac{SSR3/(m3−k)}{SSR1/(m1−k)}$ , where ki s the number of parameters
  4. Under the null hypothesis, $GQ \sim F_{m3−k,m1−k}$
- 方式二：White Test & Breusch Pagan Test
- BP Test
  - $Y_i=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_{k-1}X_{k-1}+u_i$ $Y_{i} = β_{0} + β_{1} X_{1} + β_{2} X_{2} + \dots + β_{k - 1} X_{k - 1} + u_{i}$
    - 辅助回归： $e_i^2=\alpha_0+\alpha_1X_1+\alpha_2X_2+\cdots+\alpha_{k-1}X_{k-1}+error_i$
    - $H_0:\alpha_1=\alpha_2=\cdots=\alpha_{k-1}=\cdots=0$
    - $nR^2\stackrel{d}\longrightarrow\chi^2(K-1)$
- White Test
  - 不仅估计了 $X_j$ ,而且估计了 $X_j^2$ 和 $X_jX_{j^{'}}$
  - 基本思想：
    - 在同方差的原假设 $H_0:E(\varepsilon_i^2|X)=\sigma^2$ 下，稳健协方差矩阵与普通协方差矩阵之差收敛到一个零矩阵
  - 步骤：
    1. 用OLS估计模型并且得到residuals， $e_i$
    2. 作辅助回归：
      
      $e_i^2=\alpha_0+\alpha_1x_{1i}+\alpha_2x_{2i}(+\alpha_3x_{1i}^2+\alpha_4x_{2i}^2+\alpha_5x_{1i}x_{2i})$
    3. LM统计量 $nR^2\sim \chi^2(q)$
      - $q$ 是辅助回归里rergressor的数量

# 1.4 Remedies

方法一：WLS

\mathop{SSR}_{\tilde{\beta}}=\sum_{i=1}^{n}\frac{e_i^2}{v_i}

H=\begin{pmatrix} 1/\sigma_1 &0 &\cdots &0 \\ 0 &1/\sigma_2 &\cdots &0 \\ \vdots &\vdots &\ddots &\vdots\\ 0 &0 &\cdots &0 \end{pmatrix} \\ \ \\ HY=HX\beta+Hu\\ \tilde Y=HY\\ \tilde X=HX\\ \tilde u =Hu \\ \ \\ \begin{aligned} \hat{\beta}_{WLS}&=(\tilde{X}'\tilde{X})^{-1}\tilde{X}'\tilde{Y}\\ &=[(HX)'HX]^{-1}(HX)'(HY)\\ &=[X'H'HX]^{-1}X'H'HY\\ &=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}Y\\ &=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}(X\beta+u)\\ &=\beta+(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}u \end{aligned}\\ \ \\ \begin{aligned} Var(\hat{\beta}_{WLS})&=Var((X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}u)\\ &=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}Var(u)\Sigma^{-1}X(X'\Sigma^{-1}X)^{-1}\\ &=(X'\Sigma^{-1}X)^{-1} \end{aligned}

现实中我们并不知道所有的 $\sigma_i^2$ s, 用n个观测值去估计这n个 $\sigma_i^2$ s是不可能的
因此背后还是依靠一种理论，比如我们认为解释变量的值越大，误差的方差就会越大
$Y_i=\beta_0+\beta_1X_i+u_i \\ Var(u_i)=\sigma^2X_i^2 \\ Y_i/X_i=\beta_0/X_i+\beta_1+u_i/X_i\\ \therefore\ Var(u_i/X_i)=\frac{1}{X_i^2}Var(u_i)=\sigma^2\\ \therefore\ H=\begin{pmatrix}1/X_1 &0 &\cdots &0 \\ 0 &1/X_2 &\cdots &0 \\ \vdots &\vdots &\ddots &\vdots \\ 0 &0 &\cdots &1/X_n\end{pmatrix}\rightarrow Var(\tilde{u})=Var(Hu)=\sigma^2I$
Grouped Data
$Var(u_g)=Var(\frac{1}{N_g}\sum_{i}u_{gi})=\frac{1}{N_g}\sigma^2\\ H=\begin{pmatrix}\sqrt{N_1} &0 &\cdots &0\\ 0 &\sqrt{N_2} &\cdots &0\\ \vdots &\vdots&\ddots&\vdots\\ 0 &0 &\cdots &\sqrt{N_g} \end{pmatrix}$
方法二：Heteroskedasticity-robust standard errors

Var_{rse}(\hat{\beta}_{OLS})=(X'X)^{-1}X'diag(e_1^2,e_2^2,\cdots,e_n^2)X(X'X)^{-1}

这是对 $Var(\hat{\beta})$ 的一致估计量，而非对 $Var(u)$ 的！！！
$Var_{rse}(\hat{\beta}_{OLS})$ 依旧有downward bias，但大多数情况下比 $Var_{CLRM}(\hat{\beta})$ 好一些（高一些）
哪些情况呢？
- 严重异方差： $Var_{CLRM}(\hat{\beta}_{OLS})\leq Var_{rse}(\hat{\beta})\leq Var(\hat{\beta}_{OLS})$
- 只有一点异方差： $Var_{rse}(\hat{\beta}_{OLS})\leq Var_{CLRM}(\hat{\beta})\leq Var(\hat{\beta}_{OLS})$
- 最稳健的做法： $max[\frac{e'e}{n-K},Var_{rse}(\hat{\beta}_{OLS})]$
方法三：GLS更广泛的讨论

$Var(\varepsilon|X)=\sigma^2V(X)\neq\sigma^2I_n$ ，其中 $V(X)$ 为对称正定矩阵且已知

命题：对于正定矩阵 $V_{n\times n}$ , 存在非退化矩阵 $C_{n\times n}$ ，使得 $V^{-1}=C'C$

y=X\beta+\varepsilon \\ \downarrow \\ Cy=CX\beta+C\varepsilon \\ \downarrow \\ \tilde{y}=\tilde{X}\beta+\tilde{\varepsilon} \\ \downarrow \\Var(\tilde{\varepsilon}|X)=E(\tilde \varepsilon\tilde \varepsilon'|X)=\sigma^2CVC'=\sigma^2C(C'C)^{-1}C'=\sigma^2CC^{-1}(C')^{-1}C'=\sigma^2I_n\\ \downarrow \\ \hat{\beta}_{GLS}=(\tilde{X}'\tilde{X})^{-1}\tilde{X}'\tilde{y}=[(CX)'(CX)]^{-1}(CX)'Cy=(X'V^{-1}X)^{-1}X'V^{-1}y

但是V在实践中不可知！！！
可行GLS (FGLS)

\hat{\beta}_{FGLS}=(X'\hat{V}^{-1}X)^{-1}X'\hat{V}^{-1}y

仅有异方差的估计实践：

（1） $e_i^2=\sigma^2exp(\delta_1+\delta_2x_{i2}+\cdots+\delta_{K}x_{iK})v_{i}$

（2） $lne_i^2=(ln\sigma^2+\delta_1)+\delta_2x_{i2}+\cdots+\delta_Kx_{iK}+lnv_i$ 得到 $lne_i^2$ 的预测值 $ln\hat\sigma_i^2$

（3） $\hat{\sigma_i}^2=e^{ln\hat{\sigma_i}^2}$ ，以 $1/\hat{\sigma_i}^2$ 为权重进行WLS估计

# 2. 自相关问题

# 2.1 问题起源

$\exists i\neq j, E(\varepsilon_i\varepsilon_j|X)\neq0$

# 2.2 序列相关的后果

OLS估计量依然无偏并且一致
OLS估计量依然服从渐进正态分布
t检验、F检验失效
高斯马尔可夫定理不再成立，即OLS不再是BLUE

# 2.3 典例：AR（1）

# 2.4 问题诊断

画图
- $e_i$ 与 $e_{t-1}$ 画成散点图
BG检验

y_t=\beta_0+\beta_1x_{t1}+\cdots+\beta_{K}x_{tK}+\varepsilon_{t}\\ \varepsilon_{t}=\rho_1\varepsilon_{t-1}+\cdots+\rho_{p}\varepsilon_{t-p}+u_{t}\\ H_0:\rho_1=\cdots=\rho_{p}=0

使用辅助回归： $e_t\stackrel{OLS}\longrightarrow x_{i1},\cdots,x_{iK},e_{t-1},\cdots, e_{t-p}\ (t=p+1,\cdots,n)$

$(n-p)R^2\stackrel{d}\longrightarrow\chi^2(p)$

Davidson-MacKinnon (1993): 保持样本容量为 $n$ , $nR^2\stackrel{d}\longrightarrow\chi^2(p)$

Q检验

残差各阶样本自相关系数：
$\hat{\rho}_j\equiv \frac{\sum_{t=j+1}^{n}e_te_{t-j}}{\sum_{t=1}^ne_t^2}\ (j=1,2,\cdots,p)$ $Q_{BP}\equiv n\sum_{j=1}^{p}\hat{\rho}_j^2\stackrel{d}\longrightarrow\chi^2(p)\\ Q_{LB}\equiv n(n+2)\sum_{j=1}^{p}\frac{\hat{\rho}_j^2}{n-j}\stackrel{d}\longrightarrow\chi^2(p)$
自相关阶数p的确定： $p=min\{floor(n/2)-2,40\}$
DW检验
- 只能检验AR(1) $DW\equiv d \equiv \frac{\sum_{t=2}^n(e_t-e_{t-1})^2}{\sum_{t=1}^ne_t^2}\approx 2-2\frac{\sum_{t=2}^ne_te_{t-1}}{\sum_{t=1}^n e_t^2}\equiv2(1-\hat{\rho}_1)$

# 2.5 补救方式

稳健标准误
- 异方差自相关稳健标准误(HAC)——Newey West估计法
  - $S_{XX}^{-1}\hat{Q}S_{XX}^{-1}$
- 聚类稳健标准误(Clustered)
  - 如果样本观测值可以分为不同的“聚类”，在同一聚类的观测值互相相关，而不同聚类间的观测值不相关，这种样本就称为“聚类样本”
FGLS
$Var(\varepsilon|X)=\sigma^2 \begin{pmatrix} 1 & \rho & \cdots &\rho^{n-1}\\ \rho &1 &\cdots &\rho^{n-2}\\ \vdots &\vdots & &\vdots\\ \rho^{n-1} &\rho^{n-2} &\cdots &1 \end{pmatrix}\equiv \sigma^2V \\ \ \\ V^{-1}=C'C\\ \ \\ C=\frac{1}{\sqrt{1-\rho^2}}\begin{pmatrix}\sqrt{1-\rho^2} &0 &\cdots &0 &0 \\ -\rho &1 &\cdots &0 &0\\ 0 &-\rho &\cdots &0 &0 \\ \vdots &\vdots & &\vdots &\vdots \\ 0 &0 &\cdots &-\rho &1 \end{pmatrix}\\ \ \\ H=\sqrt{1-\rho^2}C$

# 八、模型设定与数据问题

# 1. 遗漏变量

# 1.1 两种情况

遗漏变量与解释变量不相关 $Cov(x_{i1},x_{i2})=0$ ，不影响一致性，但是会增大扰动项的方差
遗漏变量与解释变量相关 $Cov(x_{i1},x_{i2})\neq0$ ，OLS不再是一致估计，成为“遗漏变量偏差”

# 1.2 解决遗漏变量的方法

加入尽可能多的控制变量
使用“代理变量”
- 多余性：仅通过影响遗漏变量而作用于被解释变量
- 剩余独立性：遗漏变量中不受代理变量影响的剩余部分与解释变量均不相关
命题：上述两个条件满足，使用代理变量就能获得一致的估计量
工具变量法
使用面板数据
随机试验与自然实验

# 2. 无关变量

真实模型： $y_i=x_{i1}'\beta_1+\varepsilon_i$
实际估计的模型： $y_i=x_{i1}'\beta_1+x_{i2}'\beta_2+(\varepsilon_{i}-x_{i2}'\beta_2)$
估计量依旧一致，但是方差会增大

# 3. 解释变量的选择

校正可决系数 $\bar R^2$
AIC:
$\mathop{min}_{K} AIC\equiv ln(e'e/n)+\frac{2}{n}K$
BIC

\mathop{min}_{K} BIC\equiv ln(e'e/n)+\frac{ln\ n}{n}K

HQIC:

\mathop{min}_{K} BIC\equiv ln(e'e/n)+\frac{ln[ln\ n]}{n}K

BIC比AIC惩罚更严厉，但是BIC是p的一致估计。

# 4. 对函数形式的检验

RESET检验
- 基本思想：如果非线性项被遗漏了，就把非线性项引入方程，并检验其系数是否显著
- $y=x'\beta+\delta_2\hat{y}^2+\delta_3\hat{y}^3+\delta_4\hat{y}^4+\mu$ ， $H_0:\delta_2=\delta_3=\delta_4=0$
- 缺点：并不知道具体遗漏了哪些高次项的信息

# 5. 多重共线性

# 5.1 严格多重共线性

$(X'X)^{-1}$ 不存在

# 5.2 非严格多重共线性

OLS仍旧是BLUE
但方差 $Var(b|X)$ 变得很大，使得对系数的估计变得不准确
症状：
- 单个 $t$ 检验不显著，但总体 $R^2$ 较大
- 增减解释变量使得系数估计值发生较大变化
- $Var(b_k|X)=\frac{\sigma^2}{(1-R_{k}^2)S_{kk}}$ $V a r (b_{k} ∣ X) = \frac{σ ^{2}}{( 1 - R _{k}^{2} ) S _{k k}}$
  - 方差膨胀因子 $VIF$ : $VIF=\frac{1}{1-R_k^2}$
  - 经验规则： $max\{VIF_1,VIF_2,\cdots,VIF_k\}\leq10$

# 6. 极端数据

杠杆： $lev_i\equiv x_i'(X'X)^{-1}x_i$
- $0\leq lev_i\leq1$
- $\sum_{i=1}^n lev_i=K$ (解释变量个数)
记 $b^{(i)}$ 为去掉第 $i$ 个观测数据后的OLS估计值，可以证明：
$b-b^{(i)}=(\frac{1}{1-lev_i})(X'X)^{-1}x_ie_i$

# 7. 虚拟变量

引入虚拟变量本身
引入虚拟变量与解释变量的交互项

# 8. 经济结构变动的检验

# 8.1 结构变动日期已知

Chow Test
$\text{无约束方程：}\\ y^1=X^1\beta^1+\varepsilon^1\\ y^2=X^2\beta^2+\varepsilon^2\\ \text{有约束方程：}\\ y=X\beta+\varepsilon\\ \ \\ \ \\ H_0: \vec{\beta^1}=\vec{\beta^2}(K\ constraints\ total)\\ \ \\ F=\frac{(e'e-e_1'e_1-e_2'e_2)/K}{(e_1'e_1+e_2'e_2)/(n-2K)}\sim F(K,n-2K)$
虚拟变量法

$y_t=\alpha+\beta x_t+\gamma D_t+\delta D_tx_t+\varepsilon_t$
- 优点：
  - 只需生成虚拟变量即可检验
  - Chow test的前提是同方差，虚拟变量法使用稳健标准误可以检验异方差下的情况
  - 虚拟变量法可以提供是斜率变动还是截距变动的信息

# 8.2 结构变动日期未知

选择一个区间 $[\tau_0,\tau_1]\subseteq[1,T]$ ，计算每一年份的F统计量，然后取最大值
匡特统计量（QLR）
15% trimming

# 9. 缺失数据与线性插值

$x_t$ 对时间 $t$ 的线性插值为： $\hat{x}_t=\frac{x_{t-1}+x_{t+1}}{2}$
对 $y_t$ 的插值： $\hat{y}=\frac{y_1-y_0}{x_1-x_0}(x-x_0)+y_0$

# 九、面板数据

# 十、IV, 2SLS, GMM

# 1. 解释变量与扰动项相关的例子

联立方程偏差（内生变量与扰动项相关）
有效工具变量应满足的条件：
- 工具变量与内生解释变量相关 $Cov(z_i,x_i)\neq0$
- （排他性约束）工具变量与扰动项不相关 $Cov(z_i,u_i)=0$
初识2SLS
- 第一阶段：（提炼外生部分）用内生解释变量对工具变量进行回归， $p_t\stackrel{OLS}\longrightarrow z_t$ ，得到拟合值 $\hat{p}_t$
- 第二阶段：用被解释变量对第一阶段回归的拟合值进行回归，即 $q_t\stackrel{OLS}\longrightarrow \hat{p}_t$
解释变量测量误差
- 真实模型:
  $y=\alpha+\beta x^*+\varepsilon$ $Cov(x^*,\varepsilon)=0$
- 观测到：
  $x=x^*+u$ $Cov(x^* , u)=0, Cov(u,\varepsilon)=0$
因此待估计的模型:

$y=\alpha+\beta x+(\varepsilon-\beta u)$
- 向0的偏误：
$Cov(x^*+u,\varepsilon-\beta u)=-\beta Var(u)\neq0$

$\hat{\beta}\stackrel{p}\longrightarrow \frac{Cov(x_i,y_i)}{Var(x_i)}=\frac{\beta Var(x_i^*)}{Var(x_i^*)+Var(u)}=\beta\frac{1}{1+\frac{\sigma_u^2}{\sigma_{x^*}^2}}$
被解释变量存在测量误差
- 真正的模型： $y^*=\beta x+\varepsilon$ , $Cov(x,\varepsilon)=0$ , $\beta\neq0$
- 测量误差： $y=y^*+v$
- 待估计模型： $y=\beta x+(\varepsilon+v)$ 扰动项误差增大

# 2. 工具变量法作为一种矩估计

# 2.1 矩估计

基本思想：用样本矩替代总体矩
OLS作为一种矩估计

\begin{aligned} E(x_i\varepsilon_i)=0&\to E[x_i(y_i-x_i'\beta)]=0\\ &\to \beta=[E(x_ix_i')]^{-1}E(x_iy_i) \end{aligned}\\ \hat{\beta}_{MM}=[1/n \sum(x_ix_i')]^{-1}(1/n \sum x_iy_i)=(X'X)^{-1}(X'y)=\hat{\beta}_{OLS}

# 2.2 工具变量法作为一种矩估计

正交条件： $E(z_i\varepsilon_i)=E(z_i(y_i-x_i'\beta))=0\to \beta=[E(z_ix_i')]^{-1}E(z_iy_i)$
$\hat{\beta}_{IV}=[1/n \sum(z_ix_i')]^{-1}(1/n \sum z_iy_i)=(Z'X)^{-1}(Z'y)$
秩条件
- 若 $rank[E(z_ix_i')]=K$ ，则在一定的正则条件下， $\hat{\beta}_{IV}$ 是 $\beta$ 的一致估计，且 $\hat{\beta}_{IV}$ 服从渐进正态分布
阶条件
- 不在方程中出现的工具变量个数不能少于方程中内生结束变量的个数
  - 不可识别
  - 恰好识别：上述工具变量法仅适用于恰好识别这一情形
  - 过度识别

# 3. 2SLS

同方差假定为前提
实质是生成工具变量的K个线性组合，满足工具变量“恰好识别”的条件
步骤：
- 第一部分：将每个解释变量 $x_1,x_2,\cdots,x_K$ 分别对所有 $L$ 个工具变量{ $z_1,z_2,\cdots,z_L$ }做OLS回归，得到拟合值
  $\hat{x}_1=Px_1, \hat{x}_2=Px_2, \cdots, \hat{x}_K=Px_K,其中P\equiv Z(Z'Z)^{-1}Z'\\ \hat{X}\equiv (\hat{x}_1,\cdots,\hat{x}_K)=PX=Z[(Z'Z)^{-1}Z'X]$
- 第二部分：使用外生部分 $\hat{X}$ 进行回归
  $\hat{\beta}_{IV}=(\hat{X}'X)^{-1}\hat{X}'y'=(\hat{X}'\hat{X})^{-1}\hat{X}'y'$ $\hat{X}'\hat{X}=(PX)'(PX)=X'P'PX=X'P'X=\hat{X}'X$ $\hat{\beta}_{2SLS}=(X'PX)^{-1}X'Py=[X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y$

# 4. 有关工具变量的检验

# 4.1 不可识别检验

$rank[E(z_ix_i')]=K-1$
Anderson LM统计量 $\chi^2(L-K+1)$

# 4.2 弱工具变量检验

四种检验方法
- 偏 $R^2$
- 最小特征值统计量
- "Cragg-Donald Wald F统计量" (Cragg and Donald, 1993) [需假设扰动项为iid]
- "Kleibergen-Paap Wald rk F统计量"
解决弱工具变量的方法
- 寻找更强的工具变量
- 使用对弱工具变量更不敏感的“有限信息最大似然估计法” (LIML)
- 丢弃冗余工具变量

# 4.3 过度识别检验——Sargan统计量

$H_0:$ 所有工具变量都是外生的
$e_{i,IV}=\gamma_1x_{i1}+\cdots+\gamma_{K-r}x_{i,K-r}+\delta_1z_{i1}+\cdots+\delta_mz_{im}+error_{i}$
Sargan统计量： $nR^2\stackrel{d}\longrightarrow\chi^2(m-r)$
过度识别的大前提：至少该模型是恰好识别的【需说明这些IV估计量中至少有一个是外生的】

# 4.4 究竟使用OLS还是工具变量：豪斯曼检验

$H_0:$ 所有解释变量均外生
$(\hat{\beta}_{IV}-\hat{\beta}_{OLS})'D^{-}(\hat{\beta}_{IV}-\hat{\beta}_{OLS})\stackrel{d}\longrightarrow \chi^2(r)$
注意：传统豪斯曼检验不适用于异方差的情况
- 解决异方差的方法
  1. bootstrap
  2. Durbin-Wu-Hausman Test
    - 一阶段回归： $x_2=x_1'\gamma+z'\delta+v$
    - 原模型中的 $y=x_1'\beta_1+x_2\beta+\varepsilon$ , 其中 $\varepsilon=\rho v+\xi$
    - $y=x_1'\beta+x_2'\beta_2+\hat{v}'\rho+error$ , $H_0: \rho=0$

# 5. GMM: 假定

2SLS有效的前提：球形扰动项；但如果扰动项存在异方差或者自相关，GMM更有效

线性假定
渐进独立的平稳过程
工具变量的正交性
- 定义 $L$ 维列限量 $g_i\equiv z_i\varepsilon_i$ , $E(g_i)=E(z_i\varepsilon_i)=0$
秩条件
- $E(z_ix_i')$ 满列秩
$\{g_i\}$ ${g_{i}}$ 为鞅差分序列
- 协方差矩阵 $S=E(g_ig_i')=E(\varepsilon_i^2z_iz_i')$ 为非退化矩阵
四阶矩 $E[(x_{ik}z_{ij})^2]$ 存在且有限， $\forall i,j,k$

# 6. GMM的推导

总体矩条件： $E(g_i)=E(z_i\varepsilon_i)=0$
相对应的样本矩条件： $g_n(\hat\beta)\equiv \frac{1}{n}\sum z_i(y_i-x_i'\hat \beta)=0$ $g_{n} (\hat{β}) \equiv \frac{1}{n} \sum z_{i} (y_{i} - x_{i}^{'} \hat{β}) = 0$
- K（ $\beta$ $β$ 向量的维度）个未知数，L(工具变量的个数)个方程
  - K>L, 无穷多解，此时无法识别
  - K=L，唯一解, 恰好识别
  - K<L, 无解，过度识别
    - 想办法找到 $\hat \beta$ 使得 $g_n(\hat \beta)$ 尽可能地接近 $\textbf{0}$
假设 $\hat W$ 为一个 $L\times L$ 维对称正定矩阵，且 $plim\hat W=W$ , 定义最小化的目标函数为：

\mathop{min}_{\hat \beta }J(\hat \beta, \hat W)\equiv n(g_n(\hat \beta))'\hat W(g_n(\hat \beta))

GMM估计量

\begin{aligned} \hat \beta_{GMM}(\hat W)&\equiv \mathop{argmin}_{\hat \beta}J(\hat{\beta},\hat{W})\\ &=(S_{ZX}'\hat W S_{ZX})^{-1}S_{ZX}' \hat W S_{Zy} \end{aligned}

其中： $S_{ZX}=\frac{1}{n}\sum z_ix_i'$ ， $S_{Zy}=\frac{1}{n}\sum z_iy_i$

恰好识别的情况下，GMM还原为IV，因为 $\hat \beta_{GMM}(\hat W)=S_{ZX}^{-1}\hat W^{-1} S_{ZX}'^{-1}S_{ZX}' \hat W S_{Zy}=S_{ZX}^{-1}S_{Zy}=\hat \beta_{IV}$

GMM推导

\begin{aligned} J(\hat{\beta},\hat{W})&=n(S_{Zy}-S_{ZX}\hat{\beta})'\hat{W}(S_{Zy}-S_{ZX})=n(S_{Zy}'-\hat{\beta}'S_{ZX}')\hat{W}(S_{Zy}-S_{ZX})\\ &=n(S_{Zy}'\hat{W}-S_{ZX}'\hat{\beta}'\hat{W})(S_{Zy}-S_{ZX})\\ &=n(S_{Zy}'\hat{W}S_{Zy}-2\hat{\beta}'S_{ZX}'\hat{W}S_{Zy}+\hat{\beta}'S_{ZX}'\hat{W}S_{ZX}\hat{\beta})\\ \frac{\partial J(\hat{\beta},\hat{W})}{\partial \hat{\beta}}&=n(-2S_{ZX}'\hat{W}S_{Zy}+2S_{ZX}'\hat{W}S_{ZX}\hat{\beta})\\ \hat \beta_{GMM}(\hat W)&\equiv \mathop{argmin}_{\hat \beta}J(\hat{\beta},\hat{W})\\ &=(S_{ZX}'\hat W S_{ZX})^{-1}S_{ZX}' \hat W S_{Zy} \end{aligned}

# 7. GMM的大样本性质

$\hat{\beta}_{GMM}$ 为一致估计： $\mathop plim_{n\to \infty}\hat{\beta}_{GMM}(\hat{W})=\beta$
$\hat{\beta}_{GMM}$ 为渐进正态

命题：使 $Avar(\hat{\beta}_{GMM})$ 最小化的“最优权重矩阵”为 $\hat{W}=\hat{S}^{-1}$ ，其中 $\hat{S}\equiv \frac{1}{n}\sum e_i^2z_iz_i'$ 是 $S\equiv E(\varepsilon_i^2z_iz_i')$ 的一致估计

两步最优GMM估计：

第一步：使用2SLS, 得到残差，计算 $\hat {S}\equiv \frac{1}{n}\sum e_i^2z_iz_i'$
第二步：最小化 $J(\hat \beta, \hat{S}^{-1})$

命题：条件同方差（给定工具变量）情况下，最优GMM就是2SLS

证明： $E(\varepsilon_i^2|z_i)=\sigma^2>0$

待完善。
GMM过度识别检验 ( 《高级计量经济学及stata应用（第二版）》pp. 150)
检验部分工具变量的正交性
在存在自相关的情况下使用GMM

# 8. 如何获得工具变量

列出与解释变量x相关的的尽可能多的变量清单
从这一清单中剔除与扰动项相关的变量

# 9. MLE也是GMM

只要 $E(s_i(\theta_0;y_i))=0$ 成立，则QMLE仍然是一致的

# 十一、最大似然估计法

# 1. 定义

似然函数

L(\theta;y_1,\cdots，y_n)=\prod_{i=1}^{n}f(y_i;\theta)

对数形式

lnL(\theta;y_1,\cdots，y_n)=\sum_{i=1}^{n}lnf(y_i;\theta)

最大似然估计量

\hat{\theta}_{ML}\equiv argmax\ lnL(\theta;y)

唯一内点解，无约束极值问题的一阶条件

s(\theta;y)\equiv \frac{\partial L(\theta;y)}{\partial \theta}\equiv \begin{pmatrix}\frac{\partial L(\theta;y)}{\partial \theta_1} \\ \frac{\partial L(\theta;y)}{\partial \theta_2}\\ \vdots \\ \frac{\partial L(\theta;y)}{\partial \theta_K}\end{pmatrix}=0

命题：得分函数的期望为0

若似然函数正确，则 $E[s(\theta_0;y)]=0$ ，其中 $s(\theta_0;y)$ 表示得分函数 $s(\theta;y)$ 在 $\theta=\theta_0$ 处的取值

s(\theta;y)=\frac{\partial \sum_{i=1}^{n}lnf(y_i;\theta)}{\partial \theta}=\sum\frac{lnf(y_i;\theta)}{\partial \theta}=\sum_{i=1}^{n}s_i(\theta;y_i)

二阶条件——负定：

H(\theta;y)\equiv \frac{\partial^2 lnL(\theta;y)}{\partial \theta \partial \theta'}=\sum_{i=1}^{n}\frac{\partial^2 lnL(\theta;y_i)}{\partial \theta \partial \theta'}\equiv\sum_{i=1}^{n}H_i(\theta;y_i)

# 2. 线性回归模型的最大似然估计

首先需要对扰动项的条件概率分布进行假设，如假设为正态分布 $\varepsilon|X\sim N(0，\sigma^2I_n)$ ，则 $y|X\sim N(X\beta，\sigma^2I_n)$
$y=X\beta+\varepsilon$
$f(y|X)=(2\pi\sigma^2)^{-n/2}exp\{-\frac{1}{2\sigma^2}(y-X\beta)'(y-X\beta)\}$

$lnL(\tilde{\beta},\tilde{\sigma}^2)=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\tilde{\sigma}^2-\frac{1}{2\tilde{\sigma}^2}(y-X\tilde{\beta})'(y-X\tilde{\beta})$
$\hat{\beta}_{ML}=\hat{\beta}_{OLS}=(X'X)^{-1}X'y$
第二步： $lnL(\tilde{\beta},\tilde{\sigma}^2)=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\tilde{\sigma}^2-\frac{1}{2\tilde{\sigma}^2}e'e$ ，对 $\tilde\sigma^2$ 求导，得到

$\hat\sigma^2_{ML}=\frac{e'e}{n}\neq \hat\sigma^2_{OLS}=\frac{e'e}{n-K}\equiv s^2$
- MLE主要优点是大样本性质良好，比如一致性、最小渐近方差
- 缺点是对方差的估计是有偏的！

# 3. 最大似然估计的数值解

# 3.1 网格搜索（Grid Search)

针对一维

# 3.2 针对多维——迭代法【例如：牛顿法】

x_{i+1}=x_i-\frac{f(x_i)}{f'(x_i)}

# 4. 信息矩阵与无偏估计的最小方差

# 4.1 信息矩阵

I(\theta)\equiv -E[\frac{\partial^2lnL(\theta;y)}{\partial \theta\partial \theta'}]

$I(\theta)$ 在几何上是"平均曲率"。 $I(\theta)$ 包含了 $\theta$ 是否容易估计的信息，故称为“信息矩阵”
命题：信息矩阵等式
- 在 $\theta=\theta_0$ 处， $I(\theta_0)\equiv -E[\frac{\partial^2lnL(\theta_0;y)}{\partial \theta\partial \theta'}]=E[\frac{\partial lnL(\theta_0;y)}{\partial \theta} \frac{\partial lnL(\theta_0;y)}{\partial \theta'}]=E[s(\theta_0;y)s(\theta_0;y)']$
命题：得分函数的方差为信息矩阵
- 在 $\theta=\theta_0$ 处，信息矩阵 $I(\theta_0)$ 就是得分函数的协方差矩阵 $Var[s(\theta_0;y)]$

# 4.2 Cramer-Rao Lower Bound

假设 $\hat{\theta}$ 是对真实参数 $\theta_0$ 的任意无偏估计，则在一定的正则条件下， $\hat{\theta}$ 的方差不会小于 $[I(\theta_0)]^{-1}$ , 即 $Var(\hat{\theta})\geq[I(\theta_0)]^{-1}$
- 其中： $[I(\theta_0)]^{-1}=\begin{pmatrix}\sigma^2(X'X)^{-1} &0 \\0 & 2\sigma^4/n \end{pmatrix}$

# 5. 最大似然法的大样本性质

（1）一致性
- $plim\hat{\theta}_{ML}=\theta_0$
（2）渐进有效性
- $Avar(\hat{\theta}_{ML})=n[I(\theta_0)]^{-1}$
（3）渐进正态
- $\sqrt{n}(\hat{\theta}_{ML}-\theta_0)\stackrel{d}\longrightarrow N(0,n[I(\theta_0)]^{-1})$

以上性质的证明待补充。

# 6. 最大似然估计量的渐进协方差矩阵

$Avar(\hat{\theta}_{ML})=n[I(\theta_0)]^{-1}=n\{-E[\frac{\partial^2lnL(\theta_0;y)}{\partial \theta\partial \theta'}]\}^{-1}$

依赖未知参数 $\theta_0$ ，但 $\theta_0$ 待估

（1）期望值法

$Avar(\hat{\theta}_{ML})=n\{-E[\frac{\partial^2lnL(\hat\theta_{ML};y)}{\partial \hat{\theta}\partial \hat{\theta}'}]\}^{-1}$

（2）观测信息矩阵法 (OIM)

$Avar(\hat{\theta}_{ML})=n[-\frac{\partial^2lnL(\hat\theta_{ML};y)}{\partial \hat{\theta}\partial \hat{\theta}'}]^{-1}$

（3）梯度向量外积或BHHH法 (OPG)

$Avar(\hat{\theta}_{ML})=n(\sum\hat{s}_i\hat{s}_i')^{-1}$ ，其中 $\hat{s}_i\equiv \frac{\partial lnL(\hat\theta_{ML};y_i)}{\partial \theta}$ 为第 $i$ 个观测值对得分函数的贡献之估计值

# 7. 三类渐进等价的统计检验

Wald Test
Likelihood Ratio Test(LR)
拉格朗日乘子法(LM)

# 8. 准最大似然估计法

定义：使用不正确的似然函数而得到的最大似然估计，称为“准最大似然估计（QMLE）”
待补充！！

# 9. 对正态分布假设的检验

画图（histogram; kernel density estimation; QQ-plot）
Jarque-Bera检验

JB\equiv \frac{n}{6}[(\frac{1}{n\hat{\sigma}^3}\sum e_i^3)^2+\frac{1}{4}(\frac{1}{n\hat{\sigma}^4}\sum e_i^4-3)^2]\stackrel{d}\longrightarrow\chi^2(2)

# 十二、二值选择模型

# 1. Linear Probability Model (LPM)

# 1.1 问题起源： $\varepsilon_i$ 与 $x_i$ 相关

因为y只能取0或者1，因而 $\varepsilon_i=1-x_i'\beta$ 或者 $\varepsilon_i=-x_i'\beta$ , 与x相关, inconsistent
$\varepsilon$ 是两点分布而不是正态分布
$Var(\varepsilon_i)=Var(x_i'\beta)$ , 存在异方差

# 1.2 另一问题：预测值超出范围

$\hat y>1$ or $\hat y<0$ 并不符合被解释变量二值的现实

# 1.3 LPM的优点

计算方便
容易得到边际效应

# 2. 连接函数 $F(x,\beta)$

# 2.1 将 $\hat y=E(y|x)$ 理解为“ $y=1$ ”发生的概率

E(y|x)=1\cdot P(y=1|x)+0\cdot P(y=0|x)=P(y=1|x)

# 2.2 Probit Model

P(y=1|x)=F(x,\beta)=\Phi(x'\beta)=\int_{-\infty}^{x'\beta}\phi(t)dt

$F(x,\beta)$ 为标准正态的累积分布函数(cdf)

# 2.3 Logit Model

P(y=1|x)=F(x,\beta)=\Lambda(x',\beta)\equiv \frac{exp(x'\beta)}{1+exp(x'\beta)}

逻辑分布期望为0，方差为 $\pi^2/3$
与标准正态相比，逻辑分布具有fat tails的特征

# 3. Logit Model：分析

# 3.1 估计方法：MLE

第i个数据的概率密度：

f(y_i|x,\beta)=\begin{cases} \Lambda(x_i'\beta) &\ if y_i=1\\ 1-\Lambda(x_i'\beta) &\ if y_i=0\end{cases}

因此，

f(y_i|x_i,\beta)=[\Lambda(x_i'\beta)]^{y_i}[1-\Lambda(x_i'\beta)]^{1-y_i}

取对数，

ln f(y_i|x_i,\beta)=y_i ln[\Lambda(x_i'\beta)]+(1-y_i) ln[1-\Lambda(x_i'\beta)]

对数似然函数：

ln L(\beta|y,x)=\sum_{i=1}^{n} y_i ln[\Lambda (x_i'\beta)]+\sum_{i=1}^{n}(1-y_i)ln[1-\Lambda(x_i'\beta)]

\hat{\beta}_{MLE}=argmax\ ln(\beta; y,x)

# 3.2 $\beta_{MLE}$ 并非边际效应

\frac{\partial P(y=1|x)}{\partial x_k}=\frac{\partial P(y=1|x)}{\partial (x'\beta)}\cdot \frac{\partial (x'\beta)}{\partial x_k}=\phi(x'\beta)\cdot \beta_k

三种常用的边际效应：

平均边际效应：分别计算在每个样本观测值上的边际效应，然后进行简单的算术平均
样本均值处的边际效应： $x=\bar{x}$ 处的边际效应
在某代表值处的边际效应： $x=x^*$ 处的边际效应

# 3.3 Log-odds ratio

p\equiv P(y=1|x),1-p\equiv P(y=0|x)\\ p=\frac{exp(x'\beta)}{1+exp(x'\beta)}, 1-p=\frac{1}{1+exp(x'\beta)}\\ \frac{p}{1-p}=exp(x'\beta) \\ ln \frac{p}{1-p}=x'\beta

$ln\frac{p}{1-p}$ 可以视作半弹性的概念，对于odds而言。即解释变量变化一个单位，odds ratio变化了百分之多少
$exp(\beta_j)$ 的解释：解释变量变化一个单位，odds变为原来的多少倍：

\frac{p^*}{1-p^*}/\frac{p}{1-p}=\frac{exp(\beta_1+\beta_2x_2+\cdots+\beta_j(x_j+1)+\cdots+\beta_Kx_K)}{exp(\beta_1+\beta_2x_2+\cdots+\beta_j x_j+\cdots+\beta_Kx_K)}=exp(\beta_j)

# 4. 二值选择模型的拟合优度

准 $R^2$ (Pseudo $R^2$ )

Pseudo\ R^2\equiv \frac{ln\ L_0-ln\ L_1}{ln\ L_0}=\frac{ln \ L_1-ln\ L_0}{ln\ L_{max}-ln\ L_0}

# 5. 二值选择模型的微观基础

# 5.1 扰动项的一种解释：潜变量

latent variable (潜变量)
净收益(不可观测) $y^*$

y^*=x'\beta+\varepsilon

净收益大于0，选择做；否则选择不做。
index function

y=\begin{cases} 1 &if\ y^*>0\\ 0 & if\ y^*\leq 0\end{cases}

假设 $\varepsilon\sim N(0,\sigma^2)$ or 逻辑分布： $P(y=1|x)=P(\varepsilon>-x'\beta|x)=P(\varepsilon<x'\beta)=F_{\varepsilon}(x'\beta)$

# 5.2 另一种解释：随机效用最大化模型（RUM）

假定 $U_a=x'\beta_a+\varepsilon_a, U_b=x'\beta_b+\varepsilon_b$

P(y=1|x)=P(U_a>U_b|x)=P[x'(\beta_a-\beta_b)+(\varepsilon_a+\varepsilon_b)>0|x]

# 十三、多值选择模型

# 1. 多项Logit与多项Probit

个体i选择方案j所能带来的随机效用为

U_{i j}=\boldsymbol{x}_{i} \boldsymbol{\beta}_{j}+\varepsilon_{i j} \quad(i=1, \cdots, n ; j=1, \cdots, J)

个体i选择方案j的概率：

\begin{aligned} \mathrm{P}\left(y_{i}=j \mid \boldsymbol{x}_{i}\right) &=\mathrm{P}\left(U_{i j} \geqslant U_{i k}, \forall k \neq j\right) \\ &=\mathrm{P}\left(U_{i k}-U_{i j} \leqslant 0, \forall k \neq j\right) \\ &=\mathrm{P}\left(\varepsilon_{i k}-\varepsilon_{i j} \leqslant \boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{j}-\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{k}, \forall k \neq j\right) \end{aligned}

假设扰动项 $\{\varepsilon\}$ 为iid且服从I型极值分布，则有：

P\left(y_{i}=j \mid x_{i}\right)=\frac{\exp \left(x_{i}^{\prime} \beta_{j}\right)}{\sum_{k=1}^{J} \exp \left(x_{i}^{\prime} \beta_{k}\right)}

base category $P\left(y_{i}=j \mid x_{i}\right)=\left\{\begin{array}{ll} \frac{1}{1+\sum_{k=2}^{J} \exp \left(x_{i}^{\prime} \boldsymbol{\beta}_{k}\right)} & (j=1) \\ \frac{\exp \left(\boldsymbol{x}_{i}' \boldsymbol{\beta}_{j}\right)}{1+\sum_{k=2}^{J} \exp \left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}_{k}\right)} & (j=2, \cdots, J) \end{array}\right.$

# 十四、平稳时间序列

# 1. 时间序列的数字特征

k阶自协方差

\gamma_{k} \equiv \operatorname{Cov}\left(y_{t}, y_{t+k}\right)=\mathrm{E}\left[\left(y_{t}-\mu\right)\left(y_{t+k}-\mu\right)\right.]

样本自协方差：
$\hat{\gamma}_{k} \equiv \frac{1}{T-k} \sum_{i=1}^{T-k}\left(y_{t}-\bar{y}\right)\left(y_{t+k}-\bar{y}\right)$
k阶自相关系数（对于严格平稳过程，自相关系数不依赖于时间t只依赖于滞后阶数k，因而被称作自相关函数ACF）

\rho_{k} \equiv \operatorname{Corr}\left(y_{t}, y_{t+k}\right) \equiv \frac{\operatorname{Cov}\left(y_{t}, y_{t+k}\right)}{\operatorname{Var}\left(y_{t}\right)}

样本自相关系数
$\hat{\boldsymbol{\rho}}_{k} \equiv \hat{\gamma}_{k} / \hat{\gamma}_{0}$
k阶偏自相关系数：考虑k期中间各期影响下的条件相关系数(PACF)
$\rho_{k}^{*} \equiv \operatorname{Corr}\left(y_{t}, y_{t+k} \mid y_{t+1}, \cdots, y_{t+k-1}\right)$

估计 $\hat \rho _k^*$ 的方法：OLS估计，然后看 $y_{t-k}$ 前的系数

# 2. AR(p)：自回归模型

y_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\varepsilon_{t}

# 2.1 对系数的估计方法

OLS：损失p个样本容量
Exact MLE: 使用迭代法进行计算，更加精确但通常计算较复杂；且需要假定扰动项 $N(0,\sigma_{\varepsilon}^2)$
Conditional MLE: 等价于OLS, 适用于样本容量较大的情况，不依赖正态性假定

# 2.2 对滞后阶数的估计方法

由大到小的序贯t规则（general-to-specific sequential t rule）
使用信息准则，选择 $\hat p$ 使得AIC, BIC或者HQIC最小化

# 2.3 白噪声的性质

零期望： $E(\varepsilon_t)=0$
同方差： $Var(\varepsilon_t)=\sigma_{\varepsilon}^2$
无自相关： $Cov(\varepsilon_t,\varepsilon_s)=0, t\neq s$

# 3. MA(q): 移动平均模型

y_t=\mu+\varepsilon_t+\theta_1 \varepsilon_{t-1}+\theta_2 \varepsilon_{t-2}+\cdots + \theta_q \varepsilon_{t-q}

# 4. ARMA初识与ACF&PACF判断

y_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\cdots+\theta_{q} \varepsilon_{t-q}

估计 $(\hat p ,\hat q)$ $(\overset{p}{^}, \overset{q}{^})$
- AR(p):
  - ACF拖尾
  - PACF截尾
- MA(q):
  - ACF截尾
  - PACF拖尾
诊断性分析：确认残差为白噪声
- Q检验，检验残差是否存在自相关

# 5. Autoregressive Distributed Lag Model: ADL(p,q)

y_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\gamma_0 x_0+\gamma_{1} x_{t-1}+\cdots+\gamma_{q} x_{t-q}+\varepsilon_{t}

Note：可使用OLS估计的前提
- $\mathrm{E}\left(\varepsilon_{1} \mid y_{1-1}, y_{1-2}, \cdots, x_{1,1-1}, x_{1,1-2}, \cdots, x_{K, 1-1}, x_{K, t-2}, \cdots\right)=0$ 扰动项与所有解释变量的整个历史全部无关
- 渐进独立的平稳序列
- 有非零的有限四阶矩
- 解释变量无完全多重共线性

# 6. 误差修正模型 ECM

基本思想：变量的短期变动向着这个长期均衡关系的部分调整
AR(1)的ECM：

\Delta y_{t}=\underbrace{\left(1-\beta_{1}\right)\left(y^{*}-y_{t-1}\right)}_{\text {error correction }}+\varepsilon_{t}

ADL的ECM：
- 原ADL: $y_{t}=\beta_{0}+\beta_{1} y_{t-1}+\gamma_{0} x_{t}+\gamma_{1} x_{t-1}+\varepsilon_{t}$
- 长期关系: $y^{*}=\frac{\beta_{0}}{\left(1-\beta_{1}\right)}+\frac{\left(\gamma_{0}+\gamma_{1}\right)}{\left(1-\beta_{1}\right)} x^{*}$ $y^{\times} = \frac{β _{0}}{( 1 - β _{1} )} + \frac{( γ _{0} + γ _{1} )}{( 1 - β _{1} )} x^{\times}$
  - 长期乘数： $\theta=\frac{\gamma_{0}+\gamma_{1}}{1-\beta_{1}}$
  - 长期系数： $\phi=\frac{\beta_0}{1-\beta_1}$
- ECM:

\Delta y_{t}=\gamma_{0} \Delta x_{t}+\underbrace{\left(\beta_{1}-1\right)\left(y_{t-1}-\phi-\theta x_{t-1}\right)}_{\text {error correction }}+\varepsilon_{t}

# 7. MA( $\infty$ )与滞后算子

# 7.1 MA( $\infty$ )

y_{t}=\mu+\sum_{j=0}^{\infty} \theta_{j} \varepsilon_{t-j}, \theta_0=1

"绝对值可加总"（Absolutely Summable, AS)

# 7.2 滞后算子

L y_{t}=y_{t-1}, L^{2} y_{t}=L\left(L y_{t}\right)=y_{t-2}, \cdots, L^{p} y_{t}=y_{t-p}

特别地， $L^0y_t=1\cdot y_t=y_t$
$L^p\cdot L^q=L^{p+q}$
差分算子 $\Delta=1-L$ , $\Delta y_t=y_t-y_{t-1}=(1-L)y_t$

# 7.3 $AR(p)$ 也是 $MA(\infty)$

\left(1-\beta_{1} L-\cdots-\beta_{p} L^{p}\right) y_{t}=\beta_{0}+\varepsilon_{t}

滞后多项式 $\beta(L)=1-\beta_1L-\cdots-\beta_pL^p$

# 7.4 滤波

\alpha(L)=\alpha_0+\alpha_1 L+\alpha_2L^2+\cdots

命题：弱平稳过程经过AS滤波作用后，仍为弱平稳过程
定义：滤波的乘积

\begin{aligned} \delta(L) & \equiv \alpha(L) \beta(L) \equiv\left(\alpha_{0}+\alpha_{1} L+\alpha_{2} L^{2}+\cdots\right)\left(\beta_{0}+\beta_{1} L+\beta_{2} L^{2}+\cdots\right) \\ &=\alpha_{0} \beta_{0}+\left(\alpha_{0} \beta_{1}+\alpha_{1} \beta_{0}\right) L+\left(\alpha_{2} \beta_{0}+\alpha_{1} \beta_{1}+\alpha_{0} \beta_{2}\right) L^{2}+\cdots \end{aligned}

应用：证明 $AR(1)$ 是 $MA(\infty)$

方法一：

\begin{aligned} y_{t} &=\beta_{0}+\beta_{1} y_{t-1}+\varepsilon_{t} \\ &=\beta_{0}+\beta_{1}\left(\beta_{0}+\beta_{1} y_{t-2}+\varepsilon_{t-1}\right)+\varepsilon_{t} \\ &=\left(\beta_{0}+\beta_{0} \beta_{1}\right)+\beta_{1}^{2} y_{t-2}+\beta_{1} \varepsilon_{t-1}+\varepsilon_{t} \\ &=\left(\beta_{0}+\beta_{0} \beta_{1}\right)+\beta_{1}^{2}\left(\beta_{0}+\beta_{1} y_{t-3}+\varepsilon_{t-2}\right)+\beta_{1} \varepsilon_{t-1}+\varepsilon_{t} \\ &=\beta_{0}\left(1+\beta_{1}+\beta_{1}^{2}\right)+\beta_{1}^{3} y_{t-3}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1} \varepsilon_{t-1}+\varepsilon_{t} \\ &=\cdots \\ &=\beta_{0}\left(1+\beta_{1}+\beta_{1}^{2}+\cdots\right)+\varepsilon_{t}+\beta_{1} \varepsilon_{t-1}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1}^{3} \varepsilon_{t-3}+\cdots \end{aligned}

方法二：

\begin{aligned} y_{t} &=\left(1-\beta_{1} L\right)^{-1}\left(\beta_{0}+\varepsilon_{t}\right) \\ &=\left(1+\beta L+\beta^{2} L^{2}+\cdots\right) \beta_{0}+\left(1+\beta L+\beta^{2} L^{2}+\cdots\right) \varepsilon_{t} \\ &=\beta_{0}\left(1+\beta_{1}+\beta_{1}^{2}+\cdots\right)+\varepsilon_{t}+\beta_{1} \varepsilon_{t-1}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1}^{3} \varepsilon_{t-3}+\\ &=\frac{\beta_{0}}{1-\beta_{1}}+\varepsilon_{t}+\beta_{1} \varepsilon_{t-1}+\beta_{1}^{2} \varepsilon_{t-2}+\beta_{1}^{3} \varepsilon_{t-3}+\cdots \end{aligned}

Note:
- $(1-\beta L)^{-1}=1+\beta L + \beta^{2}L^{2}+\beta^{3}L^{3}+\cdots$

# 7.5 脉冲响应函数与累积脉冲响应函数

I R F(j) \equiv \frac{\partial y_{t+j}}{\partial \varepsilon_{t}}=\beta_{1}^{j}

\operatorname{CIRF}(k) \equiv \sum_{j=0}^{k} \frac{\partial y_{t+j}}{\partial \varepsilon_{t}}

# 7.6 ARMA(p,q)也是 $MA(\infty)$

\begin{array}{c} y_{t}=\beta_{0}+\beta_{1} y_{t-1}+\cdots+\beta_{p} y_{t-p}+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\cdots+\theta_{q} \varepsilon_{t-q} \\ y_{t}-\beta_{1} L y_{t}-\cdots-\beta_{p} L^{p} y_{t}=\beta_{0}+\varepsilon_{t}+\theta_{1} L \varepsilon_{t}+\cdots+\theta_{q} L^{q} \varepsilon_{t} \\ \beta(L) y_{t}=\beta_{0}+\theta(L) \varepsilon_{t} \end{array}

其中， $\theta(L) \equiv 1+\theta_{1} L+\cdots+\theta_{q} L^{q}$