统计学习方法 6 逻辑斯蒂回归与最大熵模型


6.1 参数估计

设:

$$
P(Y=1|x)=\pi(x),P(Y=0|x)= 1 - \pi(x)
$$

似然函数为:

$$
\Pi ^N _{i=1} [\pi(x_i)]^{y_i}[1- \pi(x_i)]^{1-y_i}
$$

对数似然函数为:

$$
L(w)=\sum ^N _{i=1} [y_i log \frac{\pi(x_i)}{1- \ pi(x_i)} + log(1 - \pi(x_i)) ]
$$

$$
=\sum ^N _{i=1} [y_i(wx_i)-log(1+exp(wx_i))]
$$

对 $w$ 求极大值,得到 $w$ 的估计值,可用梯度下降等

6.1.4 多项逻辑斯蒂

即:softmax函数

$$
P(Y=k|x)=\frac{exp(w_k*x)}{1+\sum ^K _{k=1}exp(w_k * x) }
$$
and
$$
P(Y=K|x)=\frac{1}{1+\sum ^{K-1} _{k=1}exp(w_k * x) }
$$

6.2 最大熵模型

maximum entropy model 认为,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。
模型定义:

  1. 经验分布:通过训练数据T上进行统计得到的分布。我们需要考察两个经验分布,分别是x,y的联合经验分布以及x的分布
    分别为:

$$
\widetilde{P}(X=x,Y=y)= \frac{\nu (X=x,Y=y)}{N}
$$

$$
\widetilde{P}(X=x)=\frac{\nu (X=x)}{N}
$$

  1. 特征函数$f(x,y)$:描述输入x和输出y间的某一事实
    ==1 则满足,==0则不满足

  2. 特征函数关于经验分布的期望

$$
E_{\widetilde{P}}(f) = \sum _{x,y} \widetilde{P}(x,y)f(x,y)
$$

  1. 特征函数关于模型和经验分布的期望值:
    $$
    E_P(f) = \sum _{x,y} \widetilde{P}(x)P(y|x)f(x,y)
    $$

定义在条件概率分布$P(Y|X)$上的条件熵为
$$
H(P)=-\sum _{x,y}\widetilde{P}(x)P(y|x)logP(y|x)
$$
最大的模型称为最大熵模型

6.2.3 最大熵模型的学习

即求解最大熵模型的过程,可形式化为约束最优化问题:
$$
max_{P \in C} H(P)=-\sum _{x,y}\widetilde{P}(x)P(y|x)logP(y|x)
$$
s.t.

$$
E_P(f_i)-E_{\widetilde{P}}(f_i)=0 ,i=1,2,3…,n
$$
and
$$
\sum_y P(y|x)=1
$$
转化为无约束优化的对偶问题。


评论
  TOC