523 字
3 分钟
方差 协方差和相关系数
2024-10-11

https://njuferret.github.io/2019/07/26/2019-07-26-covariance/

概念#

方差(Variance):表示统计量对均值的误差,方差越小离散程度越小,统计量越接近平均値. 协方差(Covariance):表示统计量不同维度之间的误差,衡量该变量不同维度之间的相关性 相关系数(Coefficient):统计学上常用皮尔森相关系数来定义两个维度之间的协方差和标准差的比,度量两个维度的线性相关性,介于[-1,1]之间 当协方差为正时,两个维度呈正相关(同增同减);当协方差为负时,两个维度负相关(一增一减)。将所有将所有维度之间的协方差关系以矩阵的形式表现,即为协方差矩阵。

协方差由方差衍生而来,方差反应了一个变量的离散程度,到了二维,我们可以对每个维度求他的离散程度.但是我们还想知道更多,比如两个维度之间的关系,比如身高体重的关系,因此协方差就诞生了.

不论是哪个,针对的对象都是随机变量的各个维度,而非针对样本 方差是协方差的一个特例 协方差为 0,则两个维度不相关 协方差矩阵是一个 NxN 的方针 相关系数可以看做是一剔除了量纲后的特殊协方差

数学定义#

假设样本集 S 由 m 个 n 维随机变量组成,s={s1,…,sm},其中 sk=[xk1…xkn]

S=[S1S2Sm]=[x11x12x1nx21x22x2nxm1xm2xmn]=[X1X2Xn]S = \begin{bmatrix} S_1 \\ S_2 \\ \vdots \\ S_m \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} & \cdots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \end{bmatrix} = \left[ X_1 \quad X_2 \quad \cdots \quad X_n \right]

对于纵向的方差来说,

var(S)=[Var(x1) Var(x2)Var(Xn)]=σ2(x1σ(xn))var(S)=\begin{bmatrix} Var(x_{1})\ Var(x_{2)} \cdots Var(X_{n})\end{bmatrix}=\begin{matrix} \sigma^2(x_{1}\dots\sigma(x_{n})) \end{matrix}

其中:

Var(s)=σ2(Xi)=1m1(XiXiˉ)T(XiXiˉ)=E([XE(X)]T[XE(X)])Var(s)=\sigma^2(X_{i})=\frac{1}{m-1}(X_{i}-\bar{X_{i}})^{T}\cdot(X_{i}-\bar{X_{i}})=E([X-E(X)]^T[X-E(X)])

协方差(针对维度)

Cov(Xi,Xj)=[Cov(X1,X1)Cov(X1,X2)Cov(X1,Xn)Cov(X2,X1)Cov(X2,X2)Cov(X2,Xn)Cov(Xn,X1)Cov(Xn,X2)Cov(Xn,Xn)]Cov(X_{i},X_{j})=\begin{bmatrix} Cov(X_1, X_1) & Cov(X_1, X_2) & \cdots & Cov(X_1, X_n) \\ Cov(X_2, X_1) & Cov(X_2, X_2) & \cdots & Cov(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_n, X_1) & Cov(X_n, X_2) & \cdots & Cov(X_n, X_n) \end{bmatrix}

其中:

Cov(Xi,Xj)=1m1(XiXiˉ)T(XjXjˉ)=E([XiE(Xi)]T[XjE(Xj)])Cov(X_{i},X_{j})=\frac{1}{m-1}(X_{i}-\bar{X_{i}})^{T}\cdot(X_{j}-\bar{X_{j}})=E([X_{i}-E(X_{i})]^T[X_{j}-E(X_{j})])

当 i=j,就是方差 对于相关系数: image.png

方差 协方差和相关系数
https://fuwari.vercel.app/posts/数学/概率论/方差-协方差和相关系数/
作者
FlyingWhite
发布于
2024-10-11
许可协议
CC BY-NC-SA 4.0