HW1
一些基础
cumulative distribution function, cdf 累计分布函数
$$
e^x=\sum_{n=0}^\infty\frac{x^n}{n!}
$$
全期望公式 $\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]$
全方差公式 $\operatorname{Var}(X) = \mathbb{E}[\operatorname{Var}(X \mid Y)] + \operatorname{Var}(\mathbb{E}[X \mid Y])$
离散随机变量
Probability mass function(概率密度函数,或叫概率质量函数):p(x)是取到x的概率
伯努利bernoulli:p概率为1,1-p概率为0
二项binomial:有(n,p)两个参数,n次实验中成功的次数。$\mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n - k},\quad k = 0, 1, \dots, n$均值 $\frac{1}{p}$ 方差 $np(1-p)$
几何geometric:首次成功期望要多少次实验。$\mathbb{P}(X = k) = (1 - p)^{k - 1} p$ 均值 $\mathbb{E}(X) = np$ 方差 $\frac{1-p}p^2$
泊松poisson:$p(i)=e^{-\lambda}\frac{\lambda^i}{i!}$。二项分布$n$大$p$小时可以用泊松来近似计算。可加。均值方差都是 $\lambda$
连续随机变量
Probability density function (pdf概率密度函数):f(x),把区间的f函数积分起来就是取到这个区间的概率
- 均匀uniform
- 指数exponential:$f(x)=\lambda e^{-\lambda x}$。均值 $\mathbb{E}(X) = \frac{1}{\lambda}$ 方差 $\frac1{\lambda^2}$
- 伽马gamma:$f(x)=\frac{\lambda e^{-\lambda x}(\lambda x)^{\alpha-1}}{\Gamma(\alpha)}$,其中$\Gamma(\alpha)=\int_0^\infty e^{-x}x^{\alpha-1},\mathrm{d}x$。均值 $\frac \alpha\lambda$,方差 $\frac\alpha{\lambda^2}$
- 正态normal:$\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}$
联合分布
累积联合概率分布函数
$$
F(a,b)=P{X\le a,Y\le b}
$$
若 $Y_1=g_1(X_1,X_2)$, $Y_2=g_2(X_1,X_2)$, 满足一些唯一性和连续性的条件的情况下,可以证明联合密度函数
$$
f_{Y_1,Y_2}(y_1,y_2)={f_{X_1,X_2}(x_1,x_2)\over|J(x_1,x_2)|}
$$
其中Jacobian determinant $J(x_1,x_2)=\begin{vmatrix}\frac{\partial g_1}{\partial x_1}&\frac{\partial g_1}{\partial x_2}\\frac{\partial g_2}{\partial x_1}&\frac{\partial g_2}{\partial x_2}\end{vmatrix}$。理解:差不多起的是个缩放坐标系的作用。
MGF 概率母函数
若 $X$ 的概率分布已知,则MGF为
$$
\Phi_X(t)=\mathbb{E}[e^{tX}]
$$
第 $n$ 阶矩(即 $\mathbb{E}[X^n]$)是 $\Phi_X(t)$ 在 $t = 0$ 处的 $n$ 阶导数。比如 $\Phi_X^{(1)}(0) = \mathbb{E}[X]$,$\Phi_X^{(2)}(0) = \mathbb{E}[X^2]$,$\text{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$
近似、bound
Markov不等式
$$
P{X\ge a}\le \frac{E[x]}a
$$
中心极限定理
不管什么分布,样本足够多的话,均值标准化后的分布接近于 $N(0,1)$
HW2
指数分布的推论
$$
P(X_1<X_2)=\frac{\mu_1}{\mu_1+\mu_2}
$$