603 字
3 分钟
极大似然估计
在统计学中,把需要调查或者研究的某一现象或者事物的全部数据称为统计总体,或简称 总体(population)。 比如,我们要研究中国人的身高分布,那么全国14亿人的身高数据就是总体(population), 这14亿身高数据所属的数据分布称为 总体分布 (population distribution), 其中每一个人的身高数据,即单个数据称为个体(individual)。 然而在实际中,我们不可能得到14亿的全部数据,也就是 总体数据通常是无法得知的 。 这时,可以选择抽样(sampling),即从总体当中随机抽取出部分个体,然后得到这部分抽样个体的数据, 一次抽样的结果称为一份样本(sample)。样本(sample)是一次抽样的结果,包含多个个体(individual)数据。
极大似然估计
该方法可以在已知随机变量属于哪种概率分布的前提下,利用随机变量的一些观测值估算出分布的参数值。假设现在又概率分布为,比如是高斯分布,现在我们有一些变量x的观测值,是从同一个概率分布中采样得到的,他们是独立同分布的。
如果任意样本的发生概率为,那么所有样本发生的联合概率为,又因为所有的样本都是独立同分布的,.
无论θ取什么值,都有一定可能产生这个样本集,但是我们需要选择一个最好的出来,也就是产生这个样本集的概率最大。
最大可能
在概率统计中,把观测样本的联合概率称为似然,一般用表示,有时候也叫似然函数。
仔细观察发现,似然函数的概率连乘会导致数字无线趋近于0,会有浮点数误差,因此我们加一个log,叫做对数似然函数,一般用符号表示
对于连续的随机变量分布,我们采用概率密度函数来表示每个状态的概率大小情况,每个点的密度和概率呈正比,对于连续值随机变量使用概率密度函数直接替代概率函数对求解没有任何影响