HW1

一些基础

cumulative distribution function, cdf 累计分布函数
$$
e^x=\sum_{n=0}^\infty\frac{x^n}{n!}
$$

全期望公式 $\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]$

全方差公式 $\operatorname{Var}(X) = \mathbb{E}[\operatorname{Var}(X \mid Y)] + \operatorname{Var}(\mathbb{E}[X \mid Y])$

离散随机变量

Probability mass function(概率密度函数,或叫概率质量函数):p(x)是取到x的概率

  • 伯努利bernoulli:p概率为1,1-p概率为0

  • 二项binomial:有(n,p)两个参数,n次实验中成功的次数。$\mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n - k},\quad k = 0, 1, \dots, n$均值 $\frac{1}{p}$ 方差 $np(1-p)$

  • 几何geometric:首次成功期望要多少次实验。$\mathbb{P}(X = k) = (1 - p)^{k - 1} p$ 均值 $\mathbb{E}(X) = np$ 方差 $\frac{1-p}p^2$

  • 泊松poisson:$p(i)=e^{-\lambda}\frac{\lambda^i}{i!}$。二项分布$n$大$p$小时可以用泊松来近似计算。可加。均值方差都是 $\lambda$

连续随机变量

Probability density function (pdf概率密度函数):f(x),把区间的f函数积分起来就是取到这个区间的概率

  • 均匀uniform
  • 指数exponential:$f(x)=\lambda e^{-\lambda x}$。均值 $\mathbb{E}(X) = \frac{1}{\lambda}$ 方差 $\frac1{\lambda^2}$
  • 伽马gamma:$f(x)=\frac{\lambda e^{-\lambda x}(\lambda x)^{\alpha-1}}{\Gamma(\alpha)}$,其中$\Gamma(\alpha)=\int_0^\infty e^{-x}x^{\alpha-1},\mathrm{d}x$。均值 $\frac \alpha\lambda$,方差 $\frac\alpha{\lambda^2}$
  • 正态normal:$\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2}$

联合分布

累积联合概率分布函数
$$
F(a,b)=P{X\le a,Y\le b}
$$
若 $Y_1=g_1(X_1,X_2)$, $Y_2=g_2(X_1,X_2)$, 满足一些唯一性和连续性的条件的情况下,可以证明联合密度函数
$$
f_{Y_1,Y_2}(y_1,y_2)={f_{X_1,X_2}(x_1,x_2)\over|J(x_1,x_2)|}
$$
其中Jacobian determinant $J(x_1,x_2)=\begin{vmatrix}\frac{\partial g_1}{\partial x_1}&\frac{\partial g_1}{\partial x_2}\\frac{\partial g_2}{\partial x_1}&\frac{\partial g_2}{\partial x_2}\end{vmatrix}$。理解:差不多起的是个缩放坐标系的作用。

MGF 概率母函数

若 $X$ 的概率分布已知,则MGF为
$$
\Phi_X(t)=\mathbb{E}[e^{tX}]
$$
第 $n$ 阶矩(即 $\mathbb{E}[X^n]$)是 $\Phi_X(t)$ 在 $t = 0$ 处的 $n$ 阶导数。比如 $\Phi_X^{(1)}(0) = \mathbb{E}[X]$,$\Phi_X^{(2)}(0) = \mathbb{E}[X^2]$,$\text{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$

近似、bound

Markov不等式

$$
P{X\ge a}\le \frac{E[x]}a
$$

中心极限定理

不管什么分布,样本足够多的话,均值标准化后的分布接近于 $N(0,1)$

HW2

指数分布的推论

$$
P(X_1<X_2)=\frac{\mu_1}{\mu_1+\mu_2}
$$