朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。 和贝叶斯估计(Bayesian estimation)是不同的概念。
0 关键概念
0.1 条件概率
P(X|Y)表示在给定Y的时候X的概率分布
为什么要把条件写在后面呢? 因为英语用 given Y的话可以放在后面,符合英语的语序
0.2 联合概率分布
P(X,Y)表示在X=x和Y=y同时满足的情况下的概率。
参考f(x,y)表示X=x,Y=y时的函数值的记号
0.3 贝叶斯定理
1 基本方法
输入空间 ,输出空间类别标签,X,Y分别是定义在输入空间,输出空间上的随机向量。 是X,Y的联合概率分布。 训练数据集$$
z
分类时,给定输入x,计算的后验概率,并且将概率最大的作为输出,由贝叶斯公式可得:
其中$$
P(X=x) = \sum P(X=x|y=c_{k})P(y=c_{k})
\begin{align}
P(Y=c_{k}|X=x) &= \frac{P(X=x|Y=c_{k})P(Y=c_{k})}{P(X=x)}\
&= \frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum P(X=x|y=c_{k})P(y=c_{k})} \ \
&=\frac{P(Y=c_{k}\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k}))}{\sum P(y=c_{k})\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k})} \
\end
y_{pred} = f(x) = argmax_{c_{k}}\frac{P(Y=c_{k}\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k}))}{\sum P(y=c_{k})\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k})}
2 期望风险最小化与后验概率最大化
设0-1选择损失函数
f为分类函数
期望风险函数为
对期望风险最小化,就需要对X=x逐个最小化
所以得到经验风险最小化和后验概率最大化一致。
3 朴素贝叶斯的参数估计
3.1 极大似然估计
在朴素贝叶斯法中,学习意味着人估计和。 可以应用极大似然估计法估计相应概率:
即计算每个类别出现的频率。
j表示x的第j个维度,l表示维度j的第l个取值,k表示第k类。 即计算每个类别k中的样本x在j维度上
习题