前置知识
正态 $f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}
\exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$
如果知道分布,
协方差 $Cov(X,Y)=E(X-EX)(Y-EY)$
相关系数 $\rho_{XY}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$
对于样本,均值 $\bar y$,协方差矩阵 $\mathbf{S} = \frac{1}{n-1} \sum_{i=1}^n (\mathbf{y}_i - \bar{\mathbf{y}})(\mathbf{y}_i - \bar{\mathbf{y}})^\top$ ,相关矩阵 $R=\text{diag}(S)^{-1/2}S~\text{diag}(S)^{-1/2}$。
$R=(r_{jk}){p\times p}$,$r{jk}=\frac{s_{jk}}{\sqrt{s_{jj}s_{kk}}}$
Chapter 2 Multivariate Normal Distribution
MVN
Multivariate Normal Distribution
linear combination
$$
y\sim N(\mu,\Sigma)
$$
那么,在a方向上的投影的分布是
$$
a^\top y\sim N(a^\top \mu,a^\top \Sigma a)
$$
同时扩展到矩阵
$$
Ay\sim N(A\mu,A\Sigma A^T)
$$
Partition
单独拎一个变量出来就是正态,$Y_j\sim N(\mu_j,\sigma_{jj})$
Independence
每个变量独立的充要条件是 $\Sigma_{12}=O$
Conditional Mean / Covariance Matrix
$$
y_1|y_2\sim N_r(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(y_2-\mu_2),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})
$$
$\Sigma_{12}\Sigma_{22}^{-1}$ 称作 matrix of regression coefficients,后面方差那一项的矩阵中,$\sigma_{12\cdot 3}$ 代表固定住 $X_3$ 之后,$X_1$ 和 $X_2$ 的partial covariance。同理 $\sigma_{11\cdot 3}$ 就是 偏方差。
Sum of Independent Normals
几个独立的正态变量加起来的分布就是直接加。
Quadratic Forms 二次型
$$
(y-\mu)^\top\Sigma^{-1}(y-\mu)\sim \chi^2(p)
$$
Estimation
如果样本都i.i.d. 那么极大似然就是找一个使得样本情况最大可能出现的分布。
MLE 极大似然
均值就是均值;协方差矩阵里一般用分母n-1的无偏估计,而不用n的极大似然。
$$
\tilde \Sigma=\frac{1}{n-1}\sum_{i=1}^n(y_i-\bar y)(y_i-\bar y)^\top=\frac{n-1}{n}S
$$
其中
$$
\bar y\sim N(\mu,\Sigma/n)
$$
且
$$
(n-1)S\sim W_p(n-1,\Sigma)
$$
Wishart分布
如果 $z_1,z_2,z_3,\dots,z_q$ 是p维正态分布 $N_p(0,\Sigma)$ 的独立同分布样本向量,每个样本是p维随机向量,那么外积和矩阵
$$
W=\sum_{i=1}^qz_iz_i^\top
$$
的分布称为Wishart分布。
Chapter 3 Test on Mean vectors
检验均值
One Sample
一组样本,假设分布是 $y\sim N_p(\mu,\Sigma)$
检验 $H_0:\mu=\mu_0$, $H_1:\mu\not=\mu_0$
分已知 $\Sigma$ 和不知的两种情况
$\Sigma$ 已知
Z检验:检验统计量 $Z^2=n(\bar y-\mu_0)^\top\Sigma^{-1}(\bar y-\mu_0)$
当 $H_0$ 成立时,统计量服从 $Z^2\sim \chi^2(p)$,拒绝域 $Z^2>\chi_\alpha^2(p)$ (在很小概率的地方)
$\Sigma$ 未知
用Hottelling’s T^2检验替代,$T^2=n(\bar y-\mu_0)^\top S^{-1}(\bar y-\mu_0)$
如果原假设成立,$T^2\sim T^2(p,n-1)$ ,那么 $F=\frac{(n-1)-p+1}{(n-1)p}T^2\sim F(p,n-p)$ ,拒绝域就是 $>F_\alpha(p,n-p)$
Compare two Mean Vectors
检验两组样本的均值是否相同,就是检验差是否是0。
Paired
两组样本一一对应。减一减就变成上面一组样本的检验方法了。
Independent
假设两组协方差一样,那么 $S_{pl}=\frac{(n_1-1)S_1+(n_2-1)S_2}{n_1+n_2-2}$。有了均值差和协方差估计量就能得到 $T^2=\frac{n_1n_2}{n_1+n_2}(\bar x-\bar y)^\top S_{pl}^{-1}(\bar x-\bar y)$ 。然后转换成 F分布:$F = \frac{n_1 + n_2 - p - 1}{(n_1 + n_2 - 2)p} T^2 \sim F(p, n_1 + n_2 - p - 1)$ 即可检验。
Comparing Several Multivariate Mean Vectors
One-way MANOVA
假设 $H_0:\mu_1=\mu_2=\dots=\mu_k$
每组的均值 $\bar{y}_\ell = \frac{1}{n_\ell} \sum_{i=1}^{n_\ell} y_{\ell i}$
总体样本均值 $\bar{y} = \frac{1}{n} \sum_{\ell=1}^k \sum_{i=1}^{n_\ell} y_{\ell i}$
组间变异矩阵 $\mathbf{B} = \sum_{\ell=1}^k n_\ell (\bar{y}_\ell - \bar{y})(\bar{y}_\ell - \bar{y})^\top$
组内变异矩阵 $\mathbf{W} = \sum_{\ell=1}^k \sum_{i=1}^{n_\ell} (y_{\ell i} - \bar{y}\ell)(y{\ell i} - \bar{y}_\ell)^\top$
Wilks’ Lambda 检验统计量 $\Lambda^* = \frac{|\mathbf{W}|}{|\mathbf{B} + \mathbf{W}|}$ (组内变异所占的比例)
Bartlett 近似卡方检验统计量 $- \left(n - 1 - \frac{p + k}{2} \right) \ln(\Lambda^*) \overset d\sim \chi^2(p(k - 1))$
拒绝域 $- \ln(\Lambda^*) > \frac{\chi^2_{\alpha}(p(k - 1))}{n - 1 - \frac{p + k}{2}}$
Chapter 4 Multivariate Regression Models
Model
$$
\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon}
$$
Estimation
Least Squares Estimation就是让SSE最小
$$
SSE = (\mathbf{y} - \hat{\mathbf{y}})^\top (\mathbf{y} - \hat{\mathbf{y}}) = \hat{\boldsymbol{\varepsilon}}^\top \hat{\boldsymbol{\varepsilon}}
$$
令导数为0,
$$
\hat{\boldsymbol{\beta}} = (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}
$$
则预测值
$$
\hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X} (\mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y} = \mathbf{H} \mathbf{y}
$$
其中 $\mathbf{H}$ 是帽子矩阵。残差Residuals
$$
\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I}_n - \mathbf{H}) \mathbf{y}
$$
误差方差的估计量
$$
s^2 = \frac{\hat{\boldsymbol{\varepsilon}}^{\top} \hat{\boldsymbol{\varepsilon}}}{n - q - 1}
$$
回归系数的协方差矩阵
$$
\mathrm{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^{\top} \mathbf{X})^{-1}
$$
如果假设误差error正态分布,即
$$
\hat{\boldsymbol{\beta}} \sim \mathcal{N}(\boldsymbol{\beta}, \sigma^2 (\mathbf{X}^{\top} \mathbf{X})^{-1})
$$
则
$$
\frac{\hat{\boldsymbol{\varepsilon}}^{\top} \hat{\boldsymbol{\varepsilon}}}{\sigma^2} \sim \chi^2(n - q - 1)
$$
常用的几个SS:$SSE=\sum(y_i-\hat y_i)^2$,$SSR=\sum(\hat y_i-\bar y)^2$,$SST=\sum (y_i-\bar y)^2$,其中 $SST=SSR+SSE$。
Hypothesis Tests
Overall Regression
原假设是自变量全都无贡献,用的F统计量 $F = \frac{SSR / q}{SSE / (n - q - 1)} \sim F(q, n - q - 1)$
Lack-of-fit Test
检验是否需要添加其它变量,原假设是额外的那些变量都是0。不加那些变量的记作 $\beta_r$ ,加的记作 $\beta$。 $F = \frac{(SSE_r - SSE_f) / (q - r)}{SSE_f / (n - q - 1)} \sim F(q - r, n - q - 1)$
on Single $\beta_j$
$$
t = \frac{\hat{\beta}_j}{\text{sd}(\hat{\beta}_j)} \sim t(n - q - 1)
$$
其中标准差为 $\text{sd}(\hat{\beta}j) = \sqrt{ s^2 \cdot (X^T X)^{-1}{jj} }$
R-Square
$$
R^2 = \frac{SSR}{SST}
$$
同时,上面overall regression的F可以表示成 $F = \frac{(n - q - 1)}{q} \cdot \frac{R^2}{1 - R^2}$
Prediction
已有回归模型,如何做预测,并给出不确定性区间?
$\mathbf{\hat y}_0=\mathbf{x}_0^\top \boldsymbol{\hat{\beta}}$ 得到的点估计是无偏的($E(\mathbf{\hat y}_0)=E(\mathbf{y}_0)$)。所以算得的 $E(\mathbf{y}_0)$ 的置信区间(X长这样的样本,Y的均值是多少):
$$
\mathbf{x}0^\top \boldsymbol{\hat{\beta}} \pm t{\alpha/2}(n - q - 1) \cdot \sqrt{ s^2 \cdot \mathbf{x}0^\top (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{x}_0 }
$$
与均值不同,具体的某个 $\mathbf{y}_0$ 还得加上误差项 $\varepsilon_0\sim N(0,\sigma^2)$ 。置信区间为
$$
\mathbf{x}_0^\top \boldsymbol{\hat{\beta}} \pm t{\alpha/2}(n - q - 1) \cdot \sqrt{ s^2 \cdot \left(1 + \mathbf{x}_0^\top (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{x}_0 \right) }
$$
Chapter 5 Discrimination and Classification Analysis
Fisher’s LDA
考虑两个population $\pi_1$ 和 $\pi_2$ ,满足协方差矩阵相同但均值不同的假设(不要求正态)。如果我们手头有 $n$ 个i.i.d.的样本 $(y_i,L_i)$ ,其中 $L_i$ 表示所在的population。则有
$$
n_1 = \sum_{i=1}^n \mathbb{I}(L_i = 1), \quad
n_2 = \sum_{i=1}^n \mathbb{I}(L_i = 2), \quad
n_1 + n_2 = n
$$
则均值
$$
\bar{\boldsymbol{y}}1 = \frac{1}{n_1} \sum_{i: L_i = 1} \boldsymbol{y}_i, \quad
\bar{\boldsymbol{y}}_2 = \frac{1}{n_2} \sum{i: L_i = 2} \boldsymbol{y}i
$$
协方差
$$
\boldsymbol{S}_1 = \frac{1}{n_1 - 1} \sum{i: L_i = 1}
(\boldsymbol{y}i - \bar{\boldsymbol{y}}1)(\boldsymbol{y}_i - \bar{\boldsymbol{y}}_1)^\top
$$
同时
$$
\boldsymbol{S}_2 = \frac{1}{n_2 - 1} \sum{i: L_i = 2}
(\boldsymbol{y}_i - \bar{\boldsymbol{y}}_2)(\boldsymbol{y}_i - \bar{\boldsymbol{y}}_2)^\top
$$
我们要把样本投影到一维上,让这个方向上的投影最大程度区分两组,
$$
z_i = \boldsymbol{a}^\top \boldsymbol{y}_i = a_1 y{i1} + a_2 y_{i2} + \dots + a_p y_{ip}, \quad i = 1, 2, \dots, n
$$
也就是让目标函数
$$
J(\boldsymbol{a}) = \frac{(\bar{z}1 - \bar{z}_2)^2}{s_z^2}
= \frac{[\boldsymbol{a}^\top (\bar{\boldsymbol{y}}_1 - \bar{\boldsymbol{y}}_2)]^2}
{\boldsymbol{a}^\top \boldsymbol{S}{pl} \boldsymbol{a}}
$$
最大化两个投影均值的平方差(between-group variance)除以投影后的组内方差(within-group variance)
写成矩阵形式
$$
(\bar{z}1 - \bar{z}2)^2
= \boldsymbol{a}^\top (\bar{\boldsymbol{y}}_1 - \bar{\boldsymbol{y}}_2)
(\bar{\boldsymbol{y}}_1 - \bar{\boldsymbol{y}}_2)^\top \boldsymbol{a}
$$
那么
$$
J(\boldsymbol{a})
= \frac{
\boldsymbol{a}^\top (\bar{\boldsymbol{y}}_1 - \bar{\boldsymbol{y}}_2)
(\bar{\boldsymbol{y}}_1 - \bar{\boldsymbol{y}}_2)^\top \boldsymbol{a}
}
{\boldsymbol{a}^\top \boldsymbol{S}{pl} \boldsymbol{a}}
$$
可以证明,
$$
\boldsymbol{a} = \boldsymbol{S}{pl}^{-1} (\bar{\boldsymbol{y}}_1 - \bar{\boldsymbol{y}}_2)
$$
时 $J(a)$ 取到最大值。此时判别函数定义为
$$
Z = \boldsymbol{a}^\top \boldsymbol{y}
$$
多维情况下的扩展
样本是这样
$$
\bar{\boldsymbol{y}} = \frac{1}{n} \sum_{j=1}^{k} \sum_{i=1}^{n_j} \boldsymbol{y}{ji}, \quad
\bar{\boldsymbol{y}}_j = \frac{1}{n_j} \sum{i=1}^{n_j} \boldsymbol{y}{ji}
$$
那么组内协方差估计是这样
$$
\boldsymbol{S}{pl} = \frac{1}{n - k}
\sum_{j=1}^{k} \sum_{i=1}^{n_j}
(\boldsymbol{y}{ji} - \bar{\boldsymbol{y}}j)
(\boldsymbol{y}{ji} - \bar{\boldsymbol{y}}j)^\top
$$
那么判别函数
$$
J(\boldsymbol{a}) =
\frac{\boldsymbol{a}^\top \boldsymbol{B} \boldsymbol{a}}
{\boldsymbol{a}^\top \boldsymbol{W} \boldsymbol{a}}
$$
其中 $B$ 代表 between-group variation
$$
\boldsymbol{B} = \sum{j=1}^k
(\bar{\boldsymbol{y}}_j - \bar{\boldsymbol{y}})
(\bar{\boldsymbol{y}}_j - \bar{\boldsymbol{y}})^\top
$$
$W$ 代表 within-group variation
$$
\boldsymbol{W} = \sum{j=1}^k \sum_{i=1}^{n_j}
(\boldsymbol{y}_{ji} - \bar{\boldsymbol{y}}j)
(\boldsymbol{y}{ji} - \bar{\boldsymbol{y}}_j)^\top
$$
可以推导得判别函数
$$
Z_i = (\boldsymbol{W}^{-1/2} \boldsymbol{e}_i)^\top \boldsymbol{y},
\quad i = 1, 2, \dots, s
$$
其中 $s=\min(k-1,p)$ ,每个 $Z_i$ 都是一个discriminant axis。特征值表示分类能力强弱
Classification Analysis
Two-Class Fisher’s Classification Rule
$$
h(\boldsymbol{y}_0) =
\begin{cases}
1, & \text{if } \boldsymbol{a}^\top \boldsymbol{y}_0
\geq \frac{1}{2} \boldsymbol{a}^\top (\bar{\boldsymbol{y}}_1 + \bar{\boldsymbol{y}}_2) \
2, & \text{otherwise}
\end{cases}
$$
Bayes Classification Rule
设把1分类成2的代价为 $c(2|1)$ ,反之为 $c(1|2)$。则bayes的标准就是
$$
\frac{f_1(\boldsymbol{y})}{f_2(\boldsymbol{y})} \geq
\frac{c(1|2)}{c(2|1)} \cdot \frac{p_2}{p_1}
\quad \Rightarrow \text{assign to class 1}
$$
其中 $f_1$ 和 $f_2$ 是估计的概率密度函数,$p_1$ 和 $p_2$ 是先验概率(对总体中各比例的预期)。
如果是正态分布,容易证明,如果 $p_1=p_2$ 且 $c(1|2)=c(2|1)$ 其实等价于fisher
Fisher for k Classes
$$
h(\boldsymbol{y}0) = \arg\min{\ell \in {1, \dots, k}} \sum_{j=1}^{r}
\left{ \boldsymbol{e}_j^\top \boldsymbol{W}^{-1/2}(\boldsymbol{y}_0 - \bar{\boldsymbol{y}}_\ell) \right}^2
$$
Bayes for k Classes
$$
h(\boldsymbol{y}0) = \arg\max{\ell \in {1, \dots, k}}
p_\ell \cdot f_\ell(\boldsymbol{y}_0)
$$
Chapter 6 Clustering Analysis
距离的定义(大概不考)
Mahalanobis Distance (聚类中不太用)
$$
d(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)}
$$
Minkowski Distance
$$
d(x, y) = \left( \sum_{j=1}^p |x_j - y_j|^q \right)^{1/q}, \quad q \geq 1
$$
Canberra metric (nonnegative)
$$
d(x, y) = \sum_{j=1}^p \frac{|x_j - y_j|}{x_j + y_j}
$$
Czekanowski coefficient (nonnegative)
$$
d(x, y) = 1 - 2 \sum_{j=1}^p \frac{\min(x_j, y_j)}{x_j + y_j}
$$
Hierarchical Clustering (Agglomerative)
初始所有cluster都是自己一个人。每一轮选择两个最近的合并。
Single Linkage
两类之间最短的两个点的距离,容易生成细长的
$$
D(A, B) = \min{d(y_i, y_j): y_i \in A, y_j \in B}
$$
Complete Linkage
最远两个点的距离,比较紧凑
$$
D(A, B) = \max{d(y_i, y_j): y_i \in A, y_j \in B}
$$
Chapter 7 PCA
方差代表了携带的信息量。所以我们要方差尽量大,尽量多保留信息。
population PCA
对于一个已知均值和协方差的 $p$ 维向量,其中
$$
\mathbf{y} =
\begin{pmatrix}
Y_1 \
Y_2 \
\vdots \
Y_p
\end{pmatrix}, \quad \mathbb{E}(\mathbf{y}) = \boldsymbol{\mu} = 0, \quad \text{Cov}(\mathbf{y}) = \boldsymbol{\Sigma}
$$
我们要构造主成分 $Z_j$,
$$
Z_j = \mathbf{a}j^\top \mathbf{y} = a{j1}Y_1 + a_{j2}Y_2 + \cdots + a_{jp}Y_p
$$
方差是
$$
\text{Var}(Z_j) = \mathbf{a}_j^\top \boldsymbol{\Sigma} \mathbf{a}j
$$
主成分之间的协方差是
$$
\text{Cov}(Z_j, Z_k) = \mathbf{a}_j^\top \boldsymbol{\Sigma} \mathbf{a}_k
$$
第一个主成分的目标是选择一个线性组合,使得方差最大,权重向量为单位长度
$$
\max{\mathbf{a}1} \quad \mathbf{a}_1^\top \boldsymbol{\Sigma} \mathbf{a}_1 \quad \text{s.t.} \quad \mathbf{a}_1^\top \mathbf{a}_1 = 1
$$
以此类推,第 $j$ 个主成分需要在与前面的主成分都正交的基础上方差最大
$$
\max{\mathbf{a}j} \quad \mathbf{a}_j^\top \boldsymbol{\Sigma} \mathbf{a}_j \quad \text{s.t.} \quad
\mathbf{a}_j^\top \mathbf{a}_j = 1, \quad \mathbf{a}_k^\top \boldsymbol{\Sigma} \mathbf{a}_j = 0,\quad \forall k < j
$$
可以证明,如果 $\Sigma$ 有特征值-特征向量对 $(\lambda_1,e_1),\dots,(\lambda_p,e_p)$ 且特征值从大到小排序并 $\ge0$,那么第 $j$ 个主成分为
$$
Z_j = \mathbf{e}_j^\top \mathbf{y}, \quad \text{Var}(Z_j) = \lambda_j, \quad \text{Cov}(Z_j, Z_k) = 0\ (j \ne k)
$$
主成分的总方差保持不变(因为还没选取其中的部分维度,所以维度没变)
$$
\sum{j=1}^p \text{Var}(Z_j) = \sum_{j=1}^p \lambda_j = \sum_{j=1}^p \text{Var}(Y_j)
$$
标准化变量下的PCA
不同的变量尺度不同。先做标准化
$$
W_j = \frac{Y_j - \mu_j}{\sqrt{\sigma_{jj}}}, \quad j = 1, 2, \ldots, p
$$
矩阵形式就是
$$
\mathbf{w} = \mathbf{D}s^{-1} (\mathbf{y} - \boldsymbol{\mu}), \quad \mathbf{D}s = \text{diag}(\sqrt{\sigma{11}}, \ldots, \sqrt{\sigma{pp}})
$$
做完得到的 $\mathbf{w}$ 矩阵的协方差矩阵变为相关系数矩阵correlation matrix
$$
\text{Cov}(\mathbf{w}) = \mathbf{P}
$$
对它做特征值分解再用上面方法即可。
$$
V_j = \tilde{\mathbf{e}}j^\top \mathbf{w} = \tilde{\mathbf{e}}_j^\top \mathbf{D}_s^{-1} (\mathbf{y} - \boldsymbol{\mu})
$$
那么
$$
\text{Var}(V_j) = \tilde{\lambda}_j, \quad \sum{j=1}^p \text{Var}(V_j) = \sum_{j=1}^p \tilde{\lambda}_j = p
$$
第 $j$ 个主成分解释的变异占比为 $\frac{\tilde{\lambda}_j}{p}$。
特征分解 Eigen-decomposition
对于矩阵,求满足 $Ae=\lambda e$ 的向量和 $\lambda$。那么 $(A-\lambda I)e=0$,那么 $\det(A-\lambda I)=0$。那么根据行列式可以求出特征值。将特征值代入原式,求得特征向量。
特殊情况
如果协方差矩阵是对角矩阵,那特征值特征向量很好求。在两两之间有相同相关系数的情况下,第一主特征 $\lambda_1 = 1 + (p - 1)\rho$ ,对应 $\mathbf{e}_1 = \frac{1}{\sqrt{p}} (1, 1, \ldots, 1)^T$。其余主特征 $\lambda_2 = \lambda_3 = \cdots = \lambda_p = 1 - \rho$,$e_i^\top=\frac 1{\sqrt (i-1)i}(1,\dots,1,-(i-1),0,\dots,0)$
Sample PCA
$S$ 是协方差矩阵,$R$ 是相关矩阵 $\mathbf{R} = \text{diag}(\mathbf{S})^{-1/2} , \mathbf{S} , \text{diag}(\mathbf{S})^{-1/2}$。然后和刚才完全相同的做法。
Chapter 8 FA
思路
假设我们的观测都是公共因子加上特殊因子
$$
\mathbf{y} - \boldsymbol{\mu} = \mathbf{L} \mathbf{F} + \boldsymbol{\varepsilon}
$$
其中 $\mathbf{L}$ 是因子载荷矩阵,$\mathbf{F}$ 是公共因子,$\boldsymbol{\varepsilon}$ 是误差向量。
我们假设
$$
\mathbb{E}[\mathbf{F}] = \mathbf{0}, \quad \operatorname{Cov}(\mathbf{F}) = \mathbf{I}m
$$
并且误差是特殊因子导致的
$$
\mathbb{E}[\boldsymbol{\varepsilon}] = \mathbf{0}, \quad \operatorname{Cov}(\boldsymbol{\varepsilon}) = \boldsymbol{\Psi}(对角矩阵)
$$
因子与误差不相关
$$
\operatorname{Cov}(\mathbf{F}, \boldsymbol{\varepsilon}) = \mathbf{0}
$$
于是我们可以推导得到
$$
\operatorname{Cov}(\mathbf{y}) = \mathbf{L} \mathbf{L}^\top + \boldsymbol{\Psi}
$$
对于第 $j$ 个变量 $Y_j$ ,方差是
$$
\sigma_{jj} = h_j^2 + \psi_j, \quad \text{where } h_j^2 = \sum_{k=1}^m \ell{jk}^2
$$
其中 $h$ 是共同度communality(变量 $Y_i$ 的方差中,有多少是可以由公共因子共同解释的),$\psi_j$ 是独特性uniqueness,$l_{jk}$ 是因子载荷(factor loading),因子 $F_j$ 对变量 $Y_i$ 的解释强度。对于两个变量,协方差是
$$
\sigma_{jk} = \sum_{r=1}^m \ell_{jr} \ell_{kr}
$$
Principal Component Method
我们想保留前 $m$ 个因子来近似。和PCA一样对样本协方差矩阵 $\mathrm{S}$ 做特征值分解,估计的因子载荷矩阵就是
$$
\hat{\mathbf{L}} = \left( \sqrt{\hat{\lambda}1} \hat{\mathbf{u}}1, \ldots, \sqrt{\hat{\lambda}_m} \hat{\mathbf{u}}_m \right)
$$
特殊方差矩阵
$$
\hat{\boldsymbol{\Psi}} = \operatorname{diag}(\hat{\psi}_1, \hat{\psi}_2, \ldots, \hat{\psi}_p), \quad \hat{\psi}_j = s{jj} - \sum{k=1}^m \hat{\ell}_{jk}^2
$$
第 $k$ 个因子对总方差的贡献为:
$$
\frac{\hat{\lambda}_k}{\operatorname{tr}(\mathbf{S})}
$$
需要的时候用标准化后的Y与相关矩阵 $R$ 替代就好
载荷矩阵 $\mathbf{L}$ 的旋转
只要 $\mathbf{L} \mathbf{F}$ 乘积不变,两个矩阵我们可以自己调的。这个就叫旋转。理想中应该每个变量在某一个因子上特别大,在别的比较小,这样比较可解释。这块似乎不考。
Estimate the factor scores
因子得分估计。就是得到 $F$。因为我们只能估计出 $\varepsilon$ 的方差,不能估计出确定值,所以无法直接解出 $\mathbf{F}$。
Weighted Least Squares (WLS)
我们视 $\mathbf{L}$ 和 $\boldsymbol{\Psi}$ 为已知(估计后代入),然后把它当作一个广义最小二乘回归问题来解 $\mathbf{F}$:
$$
\hat{\mathbf{F}} = (\mathbf{L}^\top \boldsymbol{\Psi}^{-1} \mathbf{L})^{-1} \mathbf{L}^\top \boldsymbol{\Psi}^{-1} (\mathbf{y} - \boldsymbol{\mu})
$$
每个样本的得分为
$$
\hat{\mathbf{F}}_i = (\hat{\mathbf{L}}^\top \hat{\boldsymbol{\Psi}}^{-1} \hat{\mathbf{L}})^{-1} \hat{\mathbf{L}}^\top \hat{\boldsymbol{\Psi}}^{-1} (\mathbf{y}_i - \bar{\mathbf{y}})
$$
Regression Method
假设变量联合正态,可以推导出
$$
\hat{\mathbf{F}}_i = \hat{\mathbf{L}}^\top (\hat{\mathbf{L}} \hat{\mathbf{L}}^\top + \hat{\boldsymbol{\Psi}})^{-1} (\mathbf{y}_i - \bar{\mathbf{y}})
$$
有时近似为
$$
\hat{\mathbf{F}}_i = \hat{\mathbf{L}}^\top \mathbf{S}^{-1} (\mathbf{y}_i - \bar{\mathbf{y}})
$$
Chapter 9 CCA
为两组变量各自找出一组线性组合(linear combinations),使得这两个组合之间的相关系数(correlation)最大
设有两组变量:
- 第一组变量为:$\mathbf{x} = (X_1, X_2, \dots, X_p)^T$
- 第二组变量为:$\mathbf{y} = (Y_1, Y_2, \dots, Y_q)^T$
我们希望分别为这两组变量找到一对线性组合:
- $U = \mathbf{a}^T \mathbf{x}$
- $V = \mathbf{b}^T \mathbf{y}$
使得 $U$ 与 $V$ 的相关系数(correlation)最大。我们把x和y合成一个总体向量,那么 $\Sigma$ 可以表示成分块矩阵。
$\Sigma_{11} = \text{Cov}(\mathbf{x})$
$\Sigma_{22} = \text{Cov}(\mathbf{y})$
$\Sigma_{12} = \text{Cov}(\mathbf{x}, \mathbf{y})$
$\Sigma_{21} = \Sigma_{12}^T$
则 $U = \mathbf{a}^T \mathbf{x}$、$V = \mathbf{b}^T \mathbf{y}$ 的协方差和方差为:
$$
\text{Var}(U) = \mathbf{a}^T \Sigma_{11} \mathbf{a}
$$
$\text{Var}(V) = \mathbf{b}^T \Sigma_{22} \mathbf{b}$,$\text{Cov}(U, V) = \mathbf{a}^T \Sigma_{12} \mathbf{b}$
那么
$$
\text{Cor}(U, V) = \frac{\mathbf{a}^T \Sigma_{12} \mathbf{b}}{ \sqrt{ \mathbf{a}^T \Sigma_{11} \mathbf{a} \cdot \mathbf{b}^T \Sigma_{22} \mathbf{b} } }
$$
要让a和b不影响尺度,我们引入约束条件(在方差意义下不用和=1,而用方差=1):
$$
\mathbf{a}^T \Sigma_{11} \mathbf{a} = 1,\quad \mathbf{b}^T \Sigma_{22} \mathbf{b} = 1
$$
canonical variables & canonical correlation
对变量做变换,使协方差变为单位矩阵:
$$
\mathbf{x}^* = \Sigma_{11}^{-1/2} \mathbf{x}, \quad \mathbf{y}^* = \Sigma_{22}^{-1/2} \mathbf{y}
$$
那么协方差矩阵变为这样:
$$
E = \Sigma_{11}^{-1/2} \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \Sigma_{11}^{-1/2}\\
F = \Sigma_{22}^{-1/2} \Sigma_{21} \Sigma_{11}^{-1} \Sigma_{12} \Sigma_{22}^{-1/2}
$$
特征值分解,构造出canonical variables
$$
U_k = \mathbf{a}k^T \mathbf{x} = \mathbf{e}k^T \Sigma{11}^{-1/2} \mathbf{x}\\
V_k = \mathbf{b}_k^T \mathbf{y} = \mathbf{f}k^T \Sigma{22}^{-1/2} \mathbf{y}
$$
把 $\Sigma$ 做变换得到“标准化”的 $E$,
$$
E = \Sigma{11}^{-1/2} \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \Sigma_{11}^{-1/2}
$$
做特征值分解求。特征值就是canonical correlation的平方
标准化的
$$
\mathbf{x}^* = D_1^{-1} (\mathbf{x} - \mu_1), \quad \mathbf{y}^* = D_2^{-1} (\mathbf{y} - \mu_2)
$$
Sample CCA
用 $S$ 替代 $\Sigma$。