互信息 MI 是量化两个随机变量之间的互相依赖程度,是一种衡量变量之间的统计相关性的非参数度量,能够反应线性/非线性关系.
原理和定义#
互信息测量知道了一个随机变量的值后,我们还能得到另一个随机变量的信息量,也就是其他衡量了两个变量的联合分布相较于他们自身独立分布的额外信息量.如果两个变量完全独立,那么他们的 MI 为 0,如果一个变量完全确定另一个变量,那么他们的互信息达到最大.
I(x,y)=x∈X∑y∈Y∑P(x,y)log(P(x)P(y)P(x,y))I(x,y)=∫x∫yp(x,y)log(p(x)p(y)p(x,y))dxdy上面一个是离散一个是连续.
相较于相关系数,互信息不止局限于线性关系,而皮尔森先关系数主要衡量线性关系.这个互信息是信息论的基础.