\( E(XY) - E(X \mu_{Y}) - E(Y \mu_{X}) + E(\mu_{X}\mu_{Y}) = \)
应用法则6: \( E(X \pm Y) = E(X) \pm E(Y) \)
\( E(XY) - \mu_{Y} E(X) - \mu_{X} E(Y) + E(\mu_{X}\mu_{Y}) = \)
应用法则3: \( E(aX) = aE(X) \)
\( E(XY) - \mu_{Y} E(X) - \mu_{X} E(Y) + \mu_{X}\mu_{Y} = \)
应用法则2: \( E(a) = a \)
\( E(XY) - \mu_{Y} \mu_{X} - \mu_{X} \mu_{Y} + \mu_{X}\mu_{Y} = \)
应用法则1: \( E(X) = \mu_{X} \)
\( E(XY) - \mu_{X}\mu_{Y} \)
\( E((X \pm Y)^{2}) - (\mu_{X} \pm \mu_{Y})^{2} = \)
应用法则10: \( V(X) = E(X^{2}) - \mu_{X}^2 \)
\( E(X^{2} \pm 2XY + Y^{2}) - (\mu_{X}^2 \pm 2\mu_{X}\mu_{Y} + \mu_{y}^2) = \)
\( \color{red}{E(X^{2}) - \mu_{X}^2} + \color{blue}{E(Y^{2}) - \mu_{Y}^2} \pm 2(E(XY) - \mu_{X}\mu_{Y} ) = \)
应用法则6: \( E(X \pm Y) = E(X) \pm E(Y) \)
\( \color{red}{V(X)} + \color{blue}{V(Y)} \pm 2(E(XY) - \mu_{X}\mu_{Y} ) = \)
应用法则10: \( V(X) = E(X^{2}) - \mu_{X}^2 \)
\( V(X) + V(Y) \pm 2COV(X,Y) \)
应用法则11: \( COV(X,Y) = E(XY) - \mu_{X}\mu_{Y} \)
上两个图描述的是不存在相关的测量值分布。\( x \) 的取值不依赖于 \( y \). 蓝色的测量分布图中 \( x \) 和 \( y \) 具有相同的方差,所以整个样本分布的形状大致是个圆。对于红色的测量分布图,\( x \) 的分布方差比 \( y \) 更大,因此样本分布形状是个椭圆。
由于两个方向上的测量没有关联,因此 \( x \) 和 \( y \) 的协方差是0.
下两个图描述的是存在相关的测量值分布,即\( x \) 和 \( y \) 之间存在相关性。绿色的分布图中 \( x \) 取较大值时对应的 \( y \) 取值也较大,反之亦然,因此具有正相关性,故协方差也为正。而青色的分布图中 \( x \) 取较大值时对应的 \( y \) 取值会较小,反之亦然,因此具有负相关性,故协方差也为负。
对 \( N \) 个给定的 \( X \) 和 \( Y \) 的总体(译注:总体 Population,指某个变量对应的全量样本,即所有可能取值的集合),其之间的协方差如下计算:
\[ COV(X,Y) = \frac{1}{N}\sum_{i=1}^{N}(x_{i} - \mu_{x})(y_{i} - \mu_{y}) \]
把总体协方差公式变换一下:
\( COV(X,Y) = \frac{1}{N}\sum_{i=1}^{N}(x_{i}y_{i} - x_{i}\mu_{y} - y_{i}\mu_{x} + \mu_{x}\mu_{y}) \)
两个括号乘进去
\( COV(X,Y) = \frac{1}{N}\sum_{i=1}^{N}(x_{i}y_{i}) - \frac{1}{N}\sum_{i=1}^{N}(x_{i}\mu_{y}) - \frac{1}{N}\sum_{i=1}^{N}(y_{i}\mu_{x}) + \frac{1}{N}\sum_{i=1}^{N}(\mu_{x}\mu_{y}) \)
求和号分配到每一项
\( COV(X,Y) = \frac{1}{N}\sum_{i=1}^{N}(x_{i}y_{i}) - \frac{\mu_{y}}{N}\sum_{i=1}^{N}(x_{i}) - \frac{\mu_{x}}{N}\sum_{i=1}^{N}(y_{i}) + \mu_{x}\mu_{y} \)
\( \mu_{x} = \frac{1}{N}\sum_{i=1}^{N}(x_{i}); \mu_{y} = \frac{1}{N}\sum_{i=1}^{N}(y_{i}) \)
\( COV(X,Y) = \frac{1}{N}\sum_{i=1}^{N}(x_{i}y_{i}) - \mu_{x}\mu_{y} - \mu_{x}\mu_{y} + \mu_{x}\mu_{y} \)
\( COV(X,Y) = \frac{1}{N}\sum_{i=1}^{N}(x_{i}y_{i}) - \mu_{x}\mu_{y} \)
\( COV(X,Y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}y_{i} - x_{i}\mu_{y} - y_{i}\mu_{x} + \mu_{x}\mu_{y}) \)
两个括号乘进去
\( COV(X,Y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}y_{i}) - \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}\mu_{y}) - \frac{1}{N-1}\sum_{i=1}^{N}(y_{i}\mu_{x}) + \frac{1}{N-1}\sum_{i=1}^{N}(\mu_{x}\mu_{y}) \)
求和号分配到每一项
\( COV(X,Y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}y_{i}) - \frac{\mu_{y}}{N-1}\sum_{i=1}^{N}(x_{i}) - \frac{\mu_{x}}{N-1}\sum_{i=1}^{N}(y_{i}) + \frac{N}{N-1}\mu_{x}\mu_{y} \)
\( \mu_{x} = \frac{1}{N}\sum_{i=1}^{N}(x_{i}); \mu_{y} = \frac{1}{N}\sum_{i=1}^{N}(y_{i}) \)
\( COV(X,Y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}y_{i}) - \frac{N}{N-1}\mu_{x}\mu_{y} - \frac{N}{N-1}\mu_{x}\mu_{y} + \frac{N}{N-1}\mu_{x}\mu_{y} \)
\( COV(X,Y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}y_{i}) - \frac{N}{N-1}\mu_{x}\mu_{y} \)
\[ COV(X,Y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_{i}y_{i}) - \frac{N}{N-1}\mu_{x}\mu_{y} = \]
\[ = \frac{1}{3} \left( 2 \times 8 + 3 \times 7 - 1 \times 9 + 4 \times 6 \right) - \frac{4}{3} \left( \frac{(2+3-1+4)}{4} \frac{(8+7+9+6)}{4} \right) = -2.67 \]
我们可以保留向量写法,此时协方差以向量形式写出:
\[ COV(X,Y) = \frac{1}{N-1}\boldsymbol{x}\boldsymbol{y}^{T} - \frac{N}{N-1}\mu_{x}\mu_{y} \]
对于零均值的随机变量,其协方差简化为:
\[ COV(X,Y) = \frac{1}{N-1}\boldsymbol{x}\boldsymbol{y}^{T} \]
协方差矩阵
协方差矩阵是一个方阵,描述一系列随机变量两两之间的协方差。
对于一个二维随机变量,协方差矩阵为:
\boldsymbol{\Sigma} =
\left[
\begin{matrix}
\sigma_{xx} & \sigma_{xy} \\
\sigma_{yx} & \sigma_{yy} \\
\end{matrix}
\right] =
\left[
\begin{matrix}
\sigma_{x}^{2} & \sigma_{xy} \\
\sigma_{yx} & \sigma_{y}^{2} \\
\end{matrix}
\right] =
\left[
\begin{matrix}
VAR(\boldsymbol{x}) & COV(\boldsymbol{x, y}) \\
COV(\boldsymbol{y, x}) & VAR(\boldsymbol{y}) \\
\end{matrix}
\right]
注意该矩阵中的非对角元素是相等的,因为 \( COV(\boldsymbol{x, y}) = COV(\boldsymbol{y, x}) \). 如果 \( x \) 和 \( y \) 相互独立,则非对角元素是0.
对 \( n \) 维随机变量,其协方差矩阵为:
\boldsymbol{\Sigma} =
\left[
\begin{matrix}
\sigma_{1}^{2} & \sigma_{12} & \cdots & \sigma_{1n} \\
\sigma_{21} & \sigma_{2}^{2} & \cdots & \sigma_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{n}^{2}\\
\end{matrix}
\right]
大多数数学计算工具都能计算协方差矩阵。
因为 \( \boldsymbol{\Sigma}_{ij} = \sigma_{ij} = \sigma_{ji} = \boldsymbol{\Sigma}_{ji} \), 协方差矩阵是对称阵:
\[ \boldsymbol{\Sigma} = \boldsymbol{\Sigma}^{T} \]
协方差矩阵是半正定矩阵。
如果对于任何向量 \( \boldsymbol{v} \neq 0 \),都有 \( \boldsymbol{v}^{T}\boldsymbol{A}\boldsymbol{v} \geq 0 \),则矩阵 \( \boldsymbol{A} \) 称为半正定矩阵
\( \boldsymbol{A} \) 的特征值均为非负。
协方差矩阵和期望
给定一个有 \( k \) 个元素的向量 \( \boldsymbol{x} \):
\boldsymbol{x} =
\left[
\begin{matrix}
x_{1}\\
x_{2}\\
\vdots \\
x_{k}\\
\end{matrix}
\right]
\( \boldsymbol{x} \) 的协方差矩阵为:
\left( \left[
\begin{matrix}
(x_{1} - \mu_{x_{1}})^{2} & (x_{1} - \mu_{x_{1}})(x_{2} - \mu_{x_{2}}) & \cdots & (x_{1} - \mu_{x_{1}})(x_{k} - \mu_{x_{k}}) \\
(x_{2} - \mu_{x_{2}})(x_{1} - \mu_{x_{1}}) & (x_{2} - \mu_{x_{2}})^{2} & \cdots & (x_{2} - \mu_{x_{2}})(x_{k} - \mu_{x_{k}}) \\
\vdots & \vdots & \ddots & \vdots \\
(x_{k} - \mu_{x_{k}})(x_{1} - \mu_{x_{1}}) & (x_{k} - \mu_{x_{k}})(x_{2} - \mu_{x_{2}}) & \cdots & (x_{k} - \mu_{x_{k}})^{2} \\
\end{matrix}
\right] \right)
\left( \left[
\begin{matrix}
(x_{1} - \mu_{x_{1}}) \\
(x_{2} - \mu_{x_{2}}) \\
\vdots \\
(x_{k} - \mu_{x_{k}}) \\
\end{matrix}
\right]
\left[
\begin{matrix}
(x_{1} - \mu_{x_{1}}) & (x_{2} - \mu_{x_{2}}) & \cdots & (x_{k} - \mu_{x_{k}})
\end{matrix}
\right] \right)
\left(
\left(
\boldsymbol{x} - \boldsymbol{\mu}_{x}
\right)
\left(
\boldsymbol{x} - \boldsymbol{\mu}_{x}
\right)^{T}
\right)
多变量正态分布
我们已经熟悉了
单变量正态分布
,它通过一个钟形的高斯曲线描述:
\[ p(x|\mu,\sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} exp \left( -\frac{(x-\mu)^{2}}{2\sigma^{2}} \right)\]
正态分布记为:
\[ \mathcal{N}(\mu,\sigma^{2})\]
多变量正态分布是单变量正态分布在多维随机变量情况时的推广。
\( n \) 维多变量正态分布记为:
\[ p(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma}) = \frac{1}{\sqrt{(2\pi)^{n}|\boldsymbol{\Sigma}|}} exp \left( -\frac{1}{2}(\boldsymbol{x} - \boldsymbol{\mu})^{T}\boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu}) \right)\]
\( \boldsymbol{x} \) 是 \( n \) 维随机向量
\( \boldsymbol{\mu} \) 是 \( n \) 维均值向量
\( \boldsymbol{\Sigma} \) 是 \( n \times n \) 协方差矩阵
双变量正态分布
双变量(二维)正态分布描述了两个具有正态分布的随机变量。我想围绕双变量正态分布进行后续讲述,因为二维是我们所能可视化的最高的维度了。
下图是二维高斯函数的图像:
C = np.array([[5, -2],[-2, 1]]) # define covariance matrix
eigVal, eigVec = np.linalg.eig(C) # find eigenvalues and eigenvectors
a = np.sqrt(eigVal[0]) # half-major axis length
b = np.sqrt(eigVal[1]) # half-minor axis length
# ellipse orientation angle
theta = np.arctan(eigVec[1, 0] / eigVec[0, 0])
C = [5 -2; -2 1]; % define covariance matrix
[eigVec, eigVal] = eig(C); % find eigenvalues and eigenvectors
if eigVal(1,1) > eigVal(2,2) % get the highest eigenvalue index
a = sqrt(eigVal(1,1)); % half-major axis length
b = sqrt(eigVal(2,2)); % half-minor axis length
theta = atan(eigVec(2,1) / eigVec(1,1)); % ellipse angle (radians)
a = sqrt(eigVal(2,2)); % half-major axis length
b = sqrt(eigVal(1,1)); % half-minor axis length
theta = atan(eigVec(2,2) / eigVec(2,1)); % ellipse angle (radians)
由于 \( \sigma_{x} \) 和 \( \sigma_{y} \) 对应相互独立的随机变量的标准差,那么可以引入卡方分布(chi-square)这样一个新的定理来说明一个置信椭圆和其内部对应的概率之间的关系:
\[ p = 1 - exp \left( -\frac{1}{2}k^{2} \right) \]
对于一个协方差椭圆 \( k = 1 \),与之对应的概率为:
\[ p = 1 - exp \left( -\frac{1}{2} \right) = 39.35\% \]
则对于任意概率,我们可以找到一个椭圆放缩系数:
\[ k = \sqrt{-2ln(1-p)} \]
特别地,对95%的概率:
\[ k = \sqrt{-2ln(1-0.95)} = 2.45\]
95%置信椭圆的性质有:
椭圆心 \( (\mu_{x}, \mu_{y}) \) 和协方差椭圆一样
朝向角 \( \theta \) 和协方差椭圆一样
半长轴长度是 \( 2.45a \) - 经过缩放的协方差椭圆的半长轴长度
半短轴长度是 \( 2.45b \) - 经过缩放的协方差椭圆的半短轴长度