极大似然估计

前言

极大似然估计(Maximum Likelihood Estimate)提供了一种给定观察数据来估计模型参数的方法,是一种经典的点估计方法,一句话总结极大似然估计:模型给定,参数未知

似然函数

似然函数:给定一个概率分布D,已知其PDF(概率密度函数)或者PMF(概率质量函数)为$f_{D}$,$\theta$是$f_{D}$的一个参数,从分布中抽取出n个独立的采样$\{\textbf{x}_1,\textbf{x}_2,\dots,\textbf{x}_n\}$,定义似然函数如下:

极大似然估计就是通过最大化似然函数估计出参数的值。

(1)这里是每个$x_i$都是独立同分布(i.i.d)的,都服从概率分布D;

(2)最大化似然函数估计出参数值实际上就是找到一个参数值使得$\{x_1,x_2,\dots,x_n\}$的联合概率最大。

(3)在最大化似然函数的过程中,由于概率值一定是在$[0,1]$之间的,连乘易造成下溢,因此我们通常都会对似然函数取对数,称为对数似然

一个MLE的经典例子

罐中有若干个除了颜色以外完全一样的小球,而且颜色只有黑白两种,我们想要知道白球的比例,但我们不能把罐中的球倒出来数。现在我们每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色后,再把球放回罐中。假如前面一百次记录中,有七十次是白球,问罐中白球比例最可能是多少?我们都会很自然的认为答案是70$\%$,但我们该如何说明我们的猜想是正确的?下面我们用MLE的方法来推导。

记随机变量X表示所抽取球的颜色,假设X=1表示白球,X=0表示黑球,则$X\sim b(p)$,p表示罐中白球的比例,记$\{x_1,x_2,\dots,x_{100}\}$为前面一百次记录的结果,那么似然函数为

取对数$\ln L(p)=70\ln p+30\ln(1-p)$

对对数似然求导

令导数为0 ,求得最大值p=0.7.

极大似然估计与最小二乘法

我们记第i个真实值为$y^{(i)}$,第i个预测值$\hat{y}^{(i)}=\textbf{w}^{T}\textbf{x}^{(i)}$,其中$\textbf{x}^{(i)}=(x^{(i)}_1,x^{(i)}_2,\dots,x^{(i)}_d)^{T}$,误差$e=y-\hat{y}\sim \mathcal{N}(0,\sigma^2)$

为什么这里误差设为均值为0的正态分布(Normal Distribution),这里可以这样解释:根据中心极限定理,误差近似一个正态分布;而且当误差e=0时概率最大,当$e\to +\infty$时,概率很小甚至几乎为0。

根据正态分布的概率密度函数(PDF):

因此$y^{(i)}\sim \mathcal{N}(\hat{y}^{(i)},\sigma^2)=\mathcal{N}(\textbf{w}^{T}\textbf{x}^{(i)},\sigma^2)$ 是独立同分布的。

我们可以写出似然函数:

$\textbf{w}$的最优解:

这与LSR的cost function是一致的。

极大似然估计的缺陷

极大似然估计要求概率分布已知,其准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布.在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需要在一定程度上利用任务本身的历史经验知识。下面通过一个教材的例子来说明这一点。

据调查某地区居民的肝癌发病率为0.0004,若记”该地区居民患肝癌”为事件$B_1$,并记$B_2=\bar{B_1}$,则

现用甲胎蛋白法检查肝癌。若呈阴性,表明不患肝癌,若呈阳性,表明患肝癌。由于技术和操作不完善以及种种特殊原因,是肝癌者未必检出阳性,不是患者也有可能呈阳性反应。据多次实验统计,这两种错误的发生概率为:

其中事件A表示“阳性”。

那么假如某人检出阳性,根据似然函数$P(A|B_1)=0.99$,这个人应该有0.99的可能是一个肝癌患者,但假如我们用贝叶斯公式:

也就是说在检出阳性的人中,只有0.007左右的人是肝癌患者,这是由于肝癌发病率太低的缘故。

-------------本文结束感谢您的阅读-------------