Attendence只计最后一节课的情况,10%;
Homework有4次,30%;
开卷考,60%。
Homework都给99分,因此能拿29.7分;Attendence白送10分:则保底39.7分,欲达到总分60则开卷考60分中需要拿20.3分,换算百分制即为34分。由于不计GPA,34分即可。
重在了解计量经济学是什么、了解一些OLS的知识以为多元统计分析做准备(毕竟不小心选到下学期了)
OLS Estimation
MLR.1 (Linear in Parameters)
我们假设实际的函数可以写作
$$
y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_kx_k+u
$$
MLR.2 (Random Sampling)
我们手头有 $n$ 个符合上面函数的随机样本
MLR.3 (No Perfect Collinearity)
在样本中和实际值域中,没有任何一个独立变量是常数。变量之间线性无关。
MLR.4 (Zero Conditional Mean)
对于任意给定的独立变量,误差 $u$ 的期望是 $0$。
MLR.5 (Homoskedasticity)
不论变量取什么,$u$ 的方差相同。
$$
\mathrm{Var}(u|X)=\sigma^2I
$$
Gauss-Markov assumptions
MLR.1到MLR.5即Gauss-Markov assumptions。
SS
SST, Total sum of squares(方差)
$$
SST=\sum_{i=1}^n(y_i-\bar y)^2
$$
SSR, Residual sum of squares(残差平方和)
$$
SSR=\sum_{i=1}^n\hat u_i^2=\sum_{i=1}^n(y_i-\hat y_i)^2
$$
SSE, Explained sum of squares (解释平方和)
$$
SSE=\sum_{i=1}^n(\hat y_i-\bar y)^2
$$
R-squared
评价模型好坏
$$
R^2=\frac{SSE}{SST}=\frac{SST-SSR}{SST}=1-\frac{SSR}{SST}
$$
取 $0$ 时代表模型和实际没联系,取 $1$ 时代表完全契合。
当OLS增加更多变量时,$R^2$ 不会减小。因此我们有 Adjusted-$R^2$:
$$
\bar R^2=1-\frac{SSR/(n-k-1)}{SST/(n-1)}=1-\frac{n-1}{n-k-1}(1-R^2)
$$
其中要减去 $k$ 个自由度。
OLS
$$
y_i=\beta_0+\beta_1x_{1i}+\beta_2x_{2i}+\dots+\beta_kx_{ki}+u_i,i=1,2,\dots,n
$$
表示成矩阵形式,
$$
Y_{n\times1}=X_{n\times(k+1)}\beta_{(k+1)\times1}+u_{n\times1}
$$
OLS就是求使得残差平方和SSR最小的 $\beta$ 值,也就是
$$
\min_{\hat\beta_0,\hat\beta_1,\dots,\hat\beta_k}\sum_{i=1}^n(y_i-\hat y_i)^2
$$
矩阵形式表示就是
$$
\min_{\hat\beta}SSR(\hat\beta)
$$
其中
$$
SSR(\hat\beta)=(Y-X\hat\beta)’(Y-X\hat\beta)
$$
要使其取最小,则导数为 $0$,即
$$
-2X’Y+2X’X\hat\beta=0
$$
假设 $X’X$ 可逆,则
$$
\hat\beta=(X’X)^{-1}X’Y
$$
又要二阶导为正,也就是要满足某个式子 吧?
在简单线性回归的情况下
$$
\hat \beta_1=\frac{\sum_{i=1}^n(x_i-\bar x)(y_i-y)}{\sum_{i=1}^n(x_i-\bar x)^2}\\
\hat\beta_0=\bar y-\hat\beta_1\bar x
$$
估计值的期望和方差
期望
从上面式子推导可得
$$
X’(Y-X\hat\beta)=0\
即X’\hat u=0
$$
于是可以证明 $\hat\beta$ 的无偏性(unbiasedness)
$$
\begin{align*}
E(\hat\beta)&=E((X’X)^{-1}X’Y)\\
&=E(\beta+(X’X)^{-1}X’u)\\
&=\beta+E((X’X)^{-1}X’E(u|X))\\
&=\beta\quad(MLR.4)
\end{align*}
$$
方差
可以推导出
$$
\begin{align*}
\mathrm{Var}(\hat\beta|X)&=E[(\hat\beta-\beta)(\hat\beta-\beta)’|X]\\
&=E[(X’X)^{-1}X’uu’X(X’X)^{-1}|X]\\
&=(X’X)^{-1}X’E(uu’|X)X(X’X)^{-1}\\
&=\sigma^2(X’X)^{-1}
\end{align*}
$$
其中,第 $j$ 个估计值的方差是
$$
\mathrm{Var}(\hat\beta_j|x)=\frac{\sigma^2}{SST_j(1-R_j^2)}
$$
其中
$$
SST_j=\sum_{i=1}^n(x_{ij}-\bar {x_j})^2
$$
且 $R_j^2$ 是去掉 $x_j$ 后模型的 $R^2$。
可以发现,$\sigma^2$ 越大则 $\mathrm{Var}(\hat\beta_j)$ 越大,$x_j$ 的方差越大则 $\mathrm{Var}(\hat\beta_j)$ 越小,与别的变量越线性相关($R_j$ 越大),则 $\mathrm{Var}(\hat\beta_j)$ 越大。
Multicollinearity
多个变量相互correlation高的情况被称为multicollinearity多重共线性
$$
VIF_j=\frac1{1-R_j^2}
$$
越小就multicollinearity程度越低。>10就很严重
误差值的方差
$$
\hat\sigma^2=\frac{\sum_{i=1}^n\hat u_i^2}{n-k-1}
$$
期望是
$$
\begin{align*}
\hat u&=Y-X\hat\beta\
&=Y-X\beta+X(\beta-\hat\beta)\
&=u-X(X’X)^{-1}X’u\
&=(I-X(X’X)^-1X’)u
\end{align*}
$$
设 $I-X(X’X)^-1X’$ 为 $M$,则 $M$ 对称且幂等。则(这里用到了一些线性代数的trick,而且相对复杂,估计不会考这么细)
$$
\begin{align*}
E(\hat\sigma^2|X)&=E(\frac{\hat u’\hat u}{n-k-1}|X)\\
&=\frac 1{n-k-1}E(u’Mu|X)\\
&=\frac1{n-k-1}E[\mathrm{tr}(u’Mu|X)]\\
&=\frac1{n-k-1}\mathrm{tr}[E(u’u|X)M]\\
&=\sigma^2
\end{align*}
$$
Gauss-Markov Theorem
$\hat\beta$ 是最好的线性无偏估计值(Best Linear Unbiased Estimators),方差在线性估计值中最小。
OLS Inference
MLR.6 (Normality)
$$
u\sim N(0,\sigma^2)
$$
MLR.1~MLR.6统称Classical Linear Model assumptions。OLS的估计值在此情况下在所有可能的估计值中方差最小。
容易推导得
$$
y\sim N(\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_kx_k,\sigma^2)
$$
对于估计值,容易由 $\hat\beta_j$ 的公式推得
$$
\hat\beta_j\sim N[\beta_j,\mathrm{Var}(\hat\beta_j)]
$$
t检验
知识:正态分布的平方是卡方分布;正态分布除以卡方分布(适当标准化后)服从 t 分布
$$
\frac{(\hat\beta_j-\beta_j)/sd(\hat\beta_j)}{se(\hat\beta_j)/sd(\hat\beta_j)}\sim\frac{N(0,1)}{\sqrt{\chi^2_{n-k-1}/(n-k-1)}}\\
\frac{\hat\beta_j-\beta_j}{se(\hat\beta_j)}\sim t_{n-k-1}
$$
对某个估计值的假设检验:
Null hypothesis:$H_0:\beta_j=0$ (备择假设 $H_1$ 常用 $\beta_j>0$ 这样的one sided或者 $\beta_j\not=0$ 这样的two sided)
则
$$
t_{\hat\beta_j}=\frac{(\hat\beta_j-0)}{se(\hat\beta_j)}
$$
显著性水平是 $H_0$ 为真的概率。
当df(自由度)=n-k-1很大时候,t分布接近正态。
p-value
如果 $H_0$ 是真的,观察到当前数据(或更极端的结果)的可能性有多大?
当且仅当p-value比显著性水平小的时候零假设被拒绝
置信区间
$$
a_j\not\in interval\Rightarrow \text{reject}~ H_0:\beta_j=a_j\text{ in favor of } H_1:\beta_j\not=a_j
$$
线性组合的参数
如果我们要检验 $H_0:\beta_1=\beta_2$,$H_1:\beta_1<\beta_2$,那么
$$
t=\frac{\hat\beta_1-\hat\beta_2}{se(\hat\beta_1-\hat\beta_2)}\\
=\frac{\hat\beta_1-\hat\beta_2}{\sqrt{[se(\hat\beta_1)]^2+[se(\hat\beta_2)]^2-2s_{12}}}
$$
其中 $s_{12}$ 是 $Cov(\hat\beta_1,\hat\beta_2)$ 的估计值,用软件算。
F检验
用于多个变量的显著性检验。例如下面是overall significance test:
$$
H_0:\beta_1,\beta_2,\dots,\beta_k=0
$$
$$
F=\frac{(SSR_r-SSR_{ur})/q}{SSR_{ur}/(n-k-1)}=\frac{(R_{ur}^2-R_r^2)/q}{(1-R_{ur}^2)/(n-k-1)}\sim F(q,n-k-1)
$$
其中带 $r$ 的是针对受约束模型的(beta都0),带 ${ur}$ 是针对不受约束的模型的。q指的是受约束的变量数量。
如果不接受,那么称几个变量是联合显著的。
OLS Asymptotics
OLS Future Issues & Dummy Variable
Heteroskedasticity
OLS Specification Issues & Data
Instrumental Variables Estimation & 2SLS
Time Series Data
静态模型,比如
$$
y_i=\beta_0+\beta_1z_{1,t}+\beta_2z_{2,t}+u_t
$$
有限分布滞后模型,比如
$$
y_t=\alpha_0+\delta_0z_t+\delta_1z_{t-1}+\dots+\delta_qz_{t-q}+u_t
$$
其中 $\delta_0$ 称作即期倾向。$\delta_0+\delta_1+\dots+\delta_q$ 称作长期乘数。
几个假设:
- TS.1 线性性 $y_t=\beta_0+\beta x_{t1} +\beta_2x_{t2}+\dots+\beta_kx_{tk}+u_t$
- TS.2 无完全共线性,没有任何自变量恒定不变
- TS.3 零条件均值 $E(u_t|X)=0$
- TS.4 同方差性 $Var(u_t|X)=Var(u_t)=\sigma^2$
- TS.5 无序列相关,任意两个不同时期的误差都不想关 $Corr(u_t,u_s|X)=0$
- TS.6 正态
TS.1~TS.3可以推出无偏性
TS.1~TS.5可以推出和前面OLS一样的定理。
公式里可以加上 $\beta_n t$ 趋势变量,相当于给原本的数据去趋势
可以找一些01变量来搞出季节性
把这些趋势季节都搞掉再算R^2比较对。
还有一堆东西,不想学了。都想学的结果是都学不会。
Panel Data Models
不平衡面板:有些截面有样本缺数据。(而混合截面是每个时间点的数据来自不同样本)
$$
y_{it}=\beta_0+\beta_1x_{it1}+\beta_2x_{it2}+\dots+\beta_kx_{itk}+u_{it}
$$
DID
$Y_{it}$:个体 $i$ 在时间 $t$ 的结果变量。
$D_i$:是否属于处理组(1 表示处理组,0 表示对照组)。
$P_t$:时间变量,$P_t = 1$ 表示处理后时期,$P_t = 0$ 表示处理前时期。
$$
y_{it}=\beta_0+\beta_1P_t+\beta_2D_i+\beta_3(D_i\times P_t)+u_{it}
$$
$β_0$:对照组在处理前的基线水平。
$\beta_1$:对照组在处理前后的结果变化(时间趋势)。
$\beta_2$:处理组和对照组在处理前的差异。
$\beta_3$:双重差分估计值,即处理效果。
DID模型的关键假设是平行趋势假设:在没有处理的情况下,处理组和对照组的结果变化趋势应当相同。
添加控制变量:加一项 $\Gamma X_{it}$
加上固定效应:
$$
Y_{it}=\beta_0+\beta_3(D_i\times P_t)+\alpha_i+\delta_t+u_{it}
$$