朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。 和贝叶斯估计(Bayesian estimation)是不同的概念。

0 关键概念

0.1 条件概率

P(X|Y)表示在给定Y的时候X的概率分布
为什么要把条件写在后面呢? 因为英语用 given Y的话可以放在后面,符合英语的语序

0.2 联合概率分布

P(X,Y)表示在X=x和Y=y同时满足的情况下的概率。
参考f(x,y)表示X=x,Y=y时的函数值的记号

0.3 贝叶斯定理

P(A|B)=P(A)P(B|A)P(B)

1 基本方法

输入空间 XRn,输出空间类别标签Y={c1,c2,c3,ck},X,Y分别是定义在输入空间X,输出空间Y上的随机向量。 P(X,Y)是X,Y的联合概率分布。 训练数据集$$
z

$P(X,Y)$T$P(X,Y)$,:1.$P(Y=ck)$2.$P(X=x|Y=ck)=P(X(1)=x(1),,(n)=x(n)|Y=ck)$3.$P(X,Y)$:$$P(X=x|Y=ck)=P(X(1)=x(1),,(n)=x(n)|Y=ck)=j=1nP(X(j)=x(j)|Y=ck)

分类时,给定输入x,计算y=ck的后验概率,并且将概率最大的ck作为输出,由贝叶斯公式可得:

P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)P(X=x)

其中$$
P(X=x) = \sum P(X=x|y=c_{k})P(y=c_{k})

:

\begin{align}
P(Y=c_{k}|X=x) &= \frac{P(X=x|Y=c_{k})P(Y=c_{k})}{P(X=x)}\
&= \frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum P(X=x|y=c_{k})P(y=c_{k})} \ \
&=\frac{P(Y=c_{k}\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k}))}{\sum P(y=c_{k})\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k})} \
\end

:

y_{pred} = f(x) = argmax_{c_{k}}\frac{P(Y=c_{k}\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k}))}{\sum P(y=c_{k})\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_{k})}

c$k$:$$ypred=argmaxckP(Y=ckj=1nP(X(j)=x(j)|Y=ck))

2 期望风险最小化与后验概率最大化

设0-1选择损失函数

L(Y,f(X))={1,Y=f(X),0,Yf(X)

f为分类函数
期望风险函数为

Rexp(f)=E[L(Y,f(X))]=xyP(x,y)L(Y,f(X))=x[P(x)yP(y|x)L(Y,f(X))]=Ex[yP(y|x)L(Y,f(X))]=Exk=1K[L(ck,f(X))]P(ck|X)

对期望风险最小化,就需要对X=x逐个最小化

f(x)=argminyk=1K[L(ck,f(X))]P(ck|X)=argminyk=1KP(cky|X=x)=argminy1P(ck=y|X=x)=argmaxyP(ck=y|X=x)

所以得到经验风险最小化和后验概率最大化一致。

3 朴素贝叶斯的参数估计

3.1 极大似然估计

在朴素贝叶斯法中,学习意味着人估计P(Y=ck)P(Xj=xj|Y=ck)。 可以应用极大似然估计法估计相应概率:

P(Y=ck)=i=1NI(yi=ck)N,k=1,2,3,,K

即计算每个类别出现的频率。

P(Xj=xj|Y=ck)=i=1NI(xij=ajl,yi=ck)i=0NI(yi=ck),j=1,2,3,..n;l=1,2,3,,Sj,k=1,2,3,,K

j表示x的第j个维度,l表示维度j的第l个取值,k表示第k类。 即计算每个类别k中的样本x在j维度上

习题