Likehood Funciton

似然函数

定义

记已知的样本集为：

$D=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$

联合概率密度函数$p(D | \theta)$称为相对于$\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$的θ的似然函数:

$l(\theta)=p(D | \theta)=p\left(x_{1}, x_{2}, \cdots, x_{N} | \theta\right)=\prod_{i=1}^{N} p\left(x_{i} | \theta\right)$

如果$\hat{\theta}$是使似然函数$l(\theta)$最大的$\theta$值，则$\hat{\theta}$应该是“最可能”的参数值，那么$\hat{\theta}$就是$l(\theta)$的极大似然估计量。

它是样本集的函数，记作：

$\hat{\theta}=d\left(x_{1}, x_{2}, \cdots, x_{N}\right)=d(D)$

$\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{N}\right)$称作极大似然函数估计值

求解极大似然函数

求使得出现该组样本的概率最大的$\theta$值：

$\hat{\theta}=\arg \max _{\theta} l(\theta)=\arg \max _{\theta} \prod_{i=1}^{N} p\left(x_{i} | \theta\right)$

实际中为了便于分析，定义了对数似然函数：

$H(\theta)=\ln l(\theta)$

带入就有：

$\hat{\theta}=\arg \max _{\theta} H(\theta)=\arg \max _{\theta} \ln l(\theta)=\arg \max _{\theta} \sum_{i=1}^{N} \ln p\left(x_{i} | \theta\right)$

1.未知参数只有一个($\theta$为标量)

在似然函数满足连续、可微的正则条件下，极大似然估计量是下面微分方程的解：

$\frac{d l(\theta)}{d \theta}=0$

或者等价于

$\frac{d H(\theta)}{d \theta}=\frac{d \ln l(\theta)}{d \theta}=0$

1.未知参数有多个($\theta$为向量)

则θ可表示为具有S个分量的未知向量：

$\theta=\left[\theta_{1}, \theta_{2}, \cdots, \theta_{S}\right]^{T}$

记梯度算子：

$\nabla_{\theta}=\left[\frac{\partial}{\partial \theta_{1}}, \frac{\partial}{\partial \theta_{2}}, \cdots, \frac{\partial}{\partial \theta_{S}}\right]^{T}$

若似然函数满足连续可导的条件，则最大似然估计量就是如下方程的解：

$\nabla_{\theta} H(\theta)=\nabla_{\theta} \ln l(\theta)=\sum_{i=1}^{N} \nabla_{\theta} \ln P\left(x_{i} | \theta\right)=0$

极大似然估计的例子

例1：设样本服从正态分布$N\left(\mu, \sigma^{2}\right)$

似然函数为：

$L\left(\mu, \sigma^{2}\right)=\prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} e^{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}$

取对数

$\ln L\left(\mu, \sigma^{2}\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \left(\sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}$

求导，得方程组：

$\left\{\begin{array}{l}{\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)} \\ {\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0}\end{array}\right.$

联合解得：

$\left\{\begin{array}{l}{\mu^{*}=\overline{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}} \\ {\sigma^{* 2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\end{array}\right.$

所以，似然方程有唯一解$\left(\mu^{}, \sigma^{ 2}\right)$

例2：设样本服从均匀分布[a, b]

X的概率密度函数：

$f(x)=\left\{\begin{array}{l}{\frac{1}{b-a}, \mathrm{a} \leq x \leq b} \\ {0,}\end{array}\right.$

对样本$D=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$，有似然函数

$L(a, b)=\left\{\begin{array}{ll}{\frac{1}{(b-a)^{n}}, \mathrm{a} \leq x_{i} \leq b, i=1,2, \cdots, n} \\ {0}\end{array}\right.$

很显然，L(a,b)作为a和b的二元函数是不连续的，这时不能用导数来求解。而必须从极大似然估计的定义出发，求L(a,b)的最大值。
为使L(a,b)达到最大，b-a应该尽可能地小，但b又不能小于$\max \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$。类似地a不能大过$\min \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$。因此，a和b的极大似然估计：

$\begin{array}{l}{a^{*}=\min \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}} \\ {b^{*}=\max \left\{x_{1}, x_{2}, \cdots, x_{n}\right\}}\end{array}$

总结

求最大似然估计量$\hat{\theta}$的步骤：

写出似然函数
对似然函数取对数，并整理
求导数
解似然方程