贝叶斯分类器
贝叶斯决策论是概率框架下实施决策的基本方法。它假设决策问题可以用概率的形式来描述,并且假设所有有关的概率结构均已知。
贝叶斯决策论
假设$$\lambda_{ij}$$为真实标记为$$c_j$$的样本误分类为$$c_i$$所产生的损失,可以定义将样本x分类$$c_i$$的条件风险(即期望损失)为
$$R(c_i|x) = \sum_{j=1}^{N} \lambda_{ij}P(c_j|x)$$
为最小化总体风险,只需要在每个样本上选择那个能使得条件风险 $$R(c|x)$$ 最小的类别标记,即
$$h(x) = \arg \min R(c|x)$$
这就是贝叶斯最优分类器,此时的总体风险$$R(h)$$称为贝叶斯风险。
为了得到最小化决策风险,需要首先得到后验概率$$P(c|x)$$。根据贝叶斯公式,$$P(c|x) = \frac {P(c)P(x|c)} {P(x)}$$。
- $$P(c)$$是类先验概率,表示样本空间中各类样本所占的比例。
- $$P(x)$$是归一化的证据因子,与类标记无关。
- $$P(x|c)$$是类条件概率,可以使用极大似然法来估计。
极大似然估计
估计类条件概率的一种常见策略是先假定其具有某种确定的概率分布形式,然后再基于训练样本对概率分布的参数进行估计。这样,概率模型的训练过程其实就是一个参数估计过程。
极大似然估计通常使用对数似然
$$LL(\theta_c) = \log P(D_c|\theta_c) = \sum_{x \epsilon D_c} \log P(x|\theta_c)$$
此时参数的极大似然估计就是 $$\hat\theta_c= \arg \max LL(\theta_c)$$。
朴素贝叶斯分类器
为了避开类条件概率估计的障碍,朴素贝叶斯分类器假设所有属性相互独立,这样后验概率就可以写成
$$P(c|x) = \frac {P(c)P(x|c)} {P(x)} = \frac {P(c)} {P(x)} \Pi^d_{i=1} P(x_i|c)$$
由于对所有类别来说P(x)相同,因此可以得到朴素贝叶斯分类器的表达式
$$h_{nb}(x) = \arg \max P(c) \Pi^d_{i=1} P(x_i|c)$$
其中,$$P(c) = \frac {|D_c|}{|D|}$$, 而 $$P(x_i|c) = \frac {|D_{c,x_i}|}{|D_c|}$$。
为了避免其他属性携带的信息被训练集中未出现的属性值抹去,通常需要进行平滑处理,如拉普拉斯修正法。这样,上式可以修正为
$$P(c) = \frac {|D_c|+1}{|D|+N}$$ $$P(x_i|c) = \frac {|D_{c,x_i}|+1}{|D_c|+N}$$
由于现实中,属性条件独立的假设很难满足,所以人们又对假设进行一定程度的放松提出了一类半朴素贝叶斯分类器。比如独依赖估计假设每个属性最多仅依赖于一个其他属性。
贝叶斯网络
贝叶斯网络(也称信念网)是一种经典的概率图模型,它借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布。
EM算法
EM(Expectation Maximizaiton)算法是最常用的估计参数隐变量的方法。