朴素贝叶斯(Naive Bayes)是一种简单的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤)。很多教材都从这些案例出发,本文就不重复这些内容了,而把重点放在理论推导(其实很浅显,别被“理论”吓到),三种常用模型及其编码实现(Python)。
如果你对理论推导过程不感兴趣,可以直接逃到三种常用模型及编码实现部分,但我建议你还是看看理论基础部分。
另外,本文的所有代码都可以在这里获取
文中有几处公式的显示乱了,请读者移步我的CSDN:http://blog.csdn.net/u012162613/article/details/48323777
1. 朴素贝叶斯的理论基础
朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。
这里提到的贝叶斯定理、特征条件独立假设就是朴素贝叶斯的两个重要的理论基础。
1.1 贝叶斯定理
先看什么是条件概率。
P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:
$$P(A|B)=\frac{P(AB)}{P(B)}$$
贝叶斯定理便是基于条件概率,通过P(A|B)来求P(B|A):
$$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$
顺便提一下,上式中的分母P(A),可以根据全概率公式分解为:
$$ P(A)= \sum_{i=1}^{n}P(B_i)P(A|B_i)$$
1.2 特征条件独立假设
这一部分开始朴素贝叶斯的理论推导,从中你会深刻地理解什么是特征条件独立假设。
给定训练数据集(X,Y),其中每个样本x都包括n维特征,即$x=({x_1,x_2,x_3,…,x_n})$,类标记集合含有k种类别,即$y=({y_1,y_2,…,y_k})$。
如果现在来了一个新样本x,我们要怎么判断它的类别?从概率的角度来看,这个问题就是给定x,它属于哪个类别的概率最大。那么问题就转化为求解$P(y_1|x)$,$P(y_2|x)$…$P(y_k|x)$中最大的那个,即求后验概率最大的输出:
$$argmax_{y_k}P(y_k|x)$$
那$P(y_k|x)$怎么求解?答案就是贝叶斯定理:
$$P(y_k|x)=\frac{P(x|y_k)P(y_k)}{P(x)}$$
根据全概率公式,可以进一步地分解上式中的分母:
$$P(y_k|x)=\frac{P(x|y_k)P(y_k)}{\sum_kP(x|y_k)P(y_k)} 【公式1】$$
这里休息两分钟
先不管分母,分子中的$P(y_k)$是先验概率,根据训练集就可以简单地计算出来。
而条件概率$P(x|y_k)=P(x_1,x_2,…,x_n|y_k)$,它的参数规模是指数数量级别的,假设第i维特征$x_i$可取值的个数有 $S_i$ 个,类别取值个数为k个,那么参数个数为:
$$k\prod_{i=1}^{n}S_i$$
这显然不可行。针对这个问题,朴素贝叶斯算法对条件概率分布作出了独立性的假设,通俗地讲就是说假设各个维度的特征$x_1,x_2,…,x_n$互相独立,在这个假设的前提上,条件概率可以转化为:
$$\prod_{i=1}^{n}P(x_i|y_k) 【公式2】$$
这样,参数规模就降到$\sum_{i=1}^{n}S_i k$
以上就是针对条件概率所作出的特征条件独立性假设,至此,先验概率$P(y_k)$和条件概率$P(x|y_k)$的求解问题就都解决了,那么我们是不是可以求解我们所要的后验概率$P(y_k|x)$了?
这里思考两分钟
答案是肯定的。我们继续上面关于$P(y_k|x)$的推导,将【公式2】代入【公式1】得到:
$P(y_k|x)=\frac{P(yk)\prod{i=1}^{n}P(x_i|yk)}{\sum{k}P(yk)\prod{i=1}^{n}P(x_i|y_k)}$
于是朴素贝叶斯分类器可表示为:
$f(x)=argmax_{y_k} P(yk|x)=argmax{y_k} \frac{P(yk)\prod{i=1}^{n}P(x_i|yk)}{\sum{k}P(yk)\prod{i=1}^{n}P(x_i|y_k)}$
因为对所有的$y_k$,上式中的分母的值都是一样的(为什么?注意到全加符号就容易理解了),所以可以忽略分母部分,朴素贝叶斯分类器最终表示为:
$f(x)=argmax P(yk)\prod{i=1}^{n}P(x_i|y_k)$
关于$P(y_k)$,$P(x_i|y_k)$的求解,有以下三种常见的模型.
2. 三种常见的模型及编程实现
2.1 多项式模型
当特征是离散的时候,使用多项式模型。多项式模型在计算先验概率$P(y_k)$和条件概率$P(x_i|y_k)$时,会做一些平滑处理,具体公式为:
$P(yk)=\frac{N{y_k}+\alpha}{N+k\alpha}$
N是总的样本个数,k是总的类别个数,$N_{y_k}$是类别为$y_k$的样本个数,$\alpha$是平滑值。
$P(x_i|yk)=\frac{N{y_k,xi}+\alpha}{N{y_k}+n\alpha}$
$N_{y_k}$是类别为$yk$的样本个数,n是特征的维数,$N{y_k,x_i}$是类别为$y_k$的样本中,第i维特征的值是$x_i$的样本个数,$\alpha$是平滑值。
当$\alpha=1$时,称作Laplace平滑,当$0<\alpha<1$时,称作Lidstone平滑,$\alpha=0$时不做平滑。
如果不做平滑,当某一维特征的值$x_i$没在训练样本中出现过时,会导致$P(x_i|y_k)=0$,从而导致后验概率为0。加上平滑就可以克服这个问题。
2.1.1 举例
有如下训练数据,15个样本,2维特征$X^1,X^2$,2种类别-1,1。给定测试样本$x=(2,S)^{T}$,判断其类别。
解答如下:
运用多项式模型,令$\alpha=1$
- 计算先验概率
- 计算各种条件概率
- 对于给定的$x=(2,S)^{T}$,计算:
由此可以判定y=-1。
2.1.2 编程实现(基于Python,Numpy)
从上面的实例可以看到,当给定训练集时,我们无非就是先计算出所有的先验概率和条件概率,然后把它们存起来(当成一个查找表)。当来一个测试样本时,我们就计算它所有可能的后验概率,最大的那个对应的就是测试样本的类别,而后验概率的计算无非就是在查找表里查找需要的值。
我的代码就是根据这个思想来写的。定义一个MultinomialNB类,它有两个主要的方法:fit(X,y)和predict(X)。fit方法其实就是训练,调用fit方法时,做的工作就是构建查找表。predict方法就是预测,调用predict方法时,做的工作就是求解所有后验概率并找出最大的那个。此外,类的构造函数__init__()中,允许设定$\alpha$的值,以及设定先验概率的值。具体代码及如下:
1 | """ |
我们用上面举的例子来检验一下,注意S,M,L我这里用4,5,6替换:
1 | import numpy as np |
2.2 高斯模型
当特征是连续变量的时候,运用多项式模型就会导致很多$P(x_i|y_k)=0$(不做平滑的情况下),此时即使做平滑,所得到的条件概率也难以描述真实情况。所以处理连续的特征变量,应该采用高斯模型。
2.2.1 通过一个例子来说明:
下面是一组人类身体特征的统计资料。
| 性别 | 身高(英尺) | 体重(磅) |脚掌(英寸)|
| :————-: |:————-:| :—–:|:—–:|
| 男 | 6 | 180 | 12 |
|男 | 5.92 | 190 | 11 |
|男 | 5.58 | 170 | 12 |
| 男 | 5.92 | 165 | 10 |
| 女 | 5 | 100 | 6 |
| 女 | 5.5 | 150 | 8 |
| 女 | 5.42 | 130 | 7 |
| 女 | 5.75 | 150 | 9|
已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?
根据朴素贝叶斯分类器,计算下面这个式子的值。
P(身高|性别) x P(体重|性别) x P(脚掌|性别) x P(性别)
这里的困难在于,由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。怎么办?
这时,可以假设男性和女性的身高、体重、脚掌都是正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,算出某一点的密度函数的值。
比如,男性的身高是均值5.855、方差0.035的正态分布。所以,男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关系,因为这里是密度函数的值,只用来反映各个值的相对可能性)。
对于脚掌和体重同样可以计算其均值与方差。有了这些数据以后,就可以计算性别的分类了。1
2
3
4P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男)
= 6.1984 x e-9
P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女)
= 5.3778 x e-4
可以看到,女性的概率比男性要高出将近10000倍,所以判断该人为女性。
- 总结
高斯模型假设每一维特征都服从高斯分布(正态分布):
$P(x_i|yk)=\frac{1}{\sqrt{2\pi\sigma{y_k,i}^{2}}}e^{-\frac{(xi-\mu{yk,i})^{2}}{2 \sigma{y_k,i}^{2}}}$
$\mu_{y_k,i}$表示类别为$yk$的样本中,第i维特征的均值。
$\sigma{y_k,i}^{2}$表示类别为$y_k$的样本中,第i维特征的方差。
2.2.2 编程实现
高斯模型与多项式模型唯一不同的地方就在于计算 $ P( x_i | y_k) $,高斯模型假设各维特征服从正态分布,需要计算的是各维特征的均值与方差。所以我们定义GaussianNB类,继承自MultinomialNB并且重载相应的方法即可。代码如下:
1 | #GaussianNB differ from MultinomialNB in these two method: |
2.3 伯努利模型
与多项式模型一样,伯努利模型适用于离散特征的情况,所不同的是,伯努利模型中每个特征的取值只能是1和0(以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0).
伯努利模型中,条件概率$P(x_i|y_k)$的计算方式是:
当特征值$x_i$为1时,$P(x_i|y_k)=P(x_i=1|y_k)$;
当特征值$x_i$为0时,$P(x_i|y_k)=1-P(x_i=1|y_k)$;
2.3.1 编程实现
伯努利模型和多项式模型是一致的,BernoulliNB需要比MultinomialNB多定义一个二值化的方法,用于将输入的特征二值化(1,0)。当然也可以直接采用MultinomialNB,但需要将输入的特征预先二值化。写到这里不想写了,编程实现留给读者。
3 参考文献
- 《统计学习方法》,李航
- 《机器学习》
- 维基百科Sex classification
- 朴素贝叶斯的三个常用模型:高斯、多项式、伯努利
- 朴素贝叶斯分类器的应用
- 数学之美番外篇:平凡而又神奇的贝叶斯方法