您当前位置：首页>方法列表页

贝叶斯分类

基本信息

简介：

关键词：

模型背景：贝叶斯分类器是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类器。

模型原理：贝叶斯定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率

实施分析步骤：整个朴素贝叶斯分类分为三个阶段：

模型应用：以下我们通过实际例子来说明贝叶斯方法被运用的普遍性，这里主要集中在机器学习方面。

运行效果评价：贝叶斯分类法是统计学分类方法。它可以预测类隶属关系的概率，如一个给

输入输出参数
设置：如下图所示是整个贝叶斯分类器的基本脉络

方法正文

模型背景

贝叶斯分类器是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类器。而朴素贝叶斯分类器是贝叶斯分类器中最简单，也是最常见的一种分类方法。并且，朴素贝叶斯算法仍然是流行的十大挖掘算法之一，该算法是有监督的学习算法，解决的是分类问题。

贝叶斯分类法是统计学分类方法。它可以预测类隶属关系的概率，如一个给定的元组属于一个特定类的概率。贝叶斯分类基于贝叶斯定理，分类算法的比较研究发现，一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库，贝叶斯分类法也已表现出高准确率和高速度。

贝叶斯算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。

我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。贝叶斯决策论在机器学习、模式识别等诸多关注数据分析的领域都有极为重要的地位。对贝叶斯定理进行近似求解，为机器学习算法的设计提供了一种有效的途径。朴素贝叶斯分类器在信息检索领域尤为常用。

模型原理

下面不加证明地直接给出贝叶斯定理：

朴素贝叶斯分类

朴素贝叶斯（分类器）是一种生成模型，它会基于训练样本对每个可能的类别建模。之所以叫朴素贝叶斯，是因为采用了属性条件独立性假设，就是假设每个属性独立地对分类结果产生影响。即有下面的公式：

后面连乘的地方要注意的是，如果有一项概率值为0会影响后面估计，所以我们对未出现的属性概率设置一个很小的值，并不为0，这就是拉普拉斯修正（Laplacian correction）。拉普拉斯修正实际上假设了属性值和类别的均匀分布，在学习过程中额外引入了先验知识。

半朴素贝叶斯分类

在朴素的分类中，我们假定了各个属性之间的独立，这是为了计算方便，防止过多的属性之间的依赖导致的大量计算。这正是朴素的含义，虽然朴素贝叶斯的分类效果不错，但是属性之间毕竟是有关联的，某个属性依赖于另外的属性，于是就有了半朴素贝叶斯分类器。

为了计算量不至于太大，假定每个属性只依赖另外的一个。这样，更能准确描述真实情况。公式就变成：

属性为所依赖的属性，成为的父属性。确定父属性有如下方法：

SOPDE方法，这种方法是假定所有的属性都依赖于共同的一个父属性。
TAN方法，首先计算两个属性之间的条件互信息，以属性为节点构建完全图；其次构建此完全图的最大带权生成树，挑选根变量，将边设置为有向；加入类别结点，并增加从类别结点到每个属性的有向边。

图朴素贝叶斯和两种半朴素贝叶斯分类器所考虑的属性依赖关系

实施分析步骤

整个朴素贝叶斯分类分为三个阶段：

Stage1：准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

Stage2：分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

Stage3：应用阶段，这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

朴素贝叶斯分类的流程可以由下图表示：

图贝叶斯分类流程

输入输出参数设置

如下图所示是整个贝叶斯分类器的基本脉络：

图贝叶斯分类器基本脉络

贝叶斯分类需要先验概率，在训练朴素贝叶斯分类器之前，如果要对文本进行贝叶斯分类，则要处理好训练集，根据提取的分类特征将文本向量化，然后训练朴素贝叶斯分类器；去高频词汇数量的不同，对结果也是有影响的，而拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用，以上均在模型原理中有具体说明。

运行效果评价

贝叶斯分类法是统计学分类方法。它可以预测类隶属关系的概率，如一个给

针对上述朴素贝叶斯分类器，其优缺点如下所列：

优点
算法逻辑简单，易于实现，算法思路很简单，使用贝叶斯公式转化
分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储）
缺点

理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。

而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

模型应用

以下我们通过实际例子来说明贝叶斯方法被运用的普遍性，这里主要集中在机器学习方面。

给定一封邮件，判定它是否属于垃圾邮件。按照先例，我们还是用D来表示这封邮件，注意D由N个单词组成。我们用h+来表示垃圾邮件，h-表示正常邮件。问题可以形式化地描述为求：

P(h+|D) = P(h+) * P(D|h+) / P(D)

P(h-|D) = P(h-) * P(D|h-) / P(D)

其中 P(h+) 和 P(h-) 这两个先验概率都是很容易求出来的，只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。然而 P(D|h+) 却不容易求，因为 D 里面含有 N 个单词 d1, d2, d3, .. ，所以P(D|h+) = P(d1,d2,..,dn|h+) 。我们又一次遇到了数据稀疏性，为何这么说呢？P(d1,d2,..,dn|h+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是非常小的，因为每封邮件都是不同的，世界上有无穷多封邮件。这就是数据稀疏性，因为可以肯定地说，你收集的训练数据库不管里面含了多少封邮件，也不可能找出一封跟目前这封一模一样的。结果呢？我们又该如何来计算 P(d1,d2,..,dn|h+) 呢？

我们将 P(d1,d2,..,dn|h+)扩展为： P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .. 。这里我们会使用一个更激进的假设，我们假设 di 与 di-1 是完全条件无关的，于是式子就简化为 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 。这个就是所谓的条件独立假设，也正是朴素贝叶斯方法的朴素之处。而计算 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 问题至此就变得简单了，只要统计di这个单词在垃圾邮件中出现的频率即可。

通过以上学习我们发现，由于无法穷举所有可能性，贝叶斯推断基本上不能给出肯定的结果。尽管如此，在进行大量的测试后，如果获得的测试结果都无误，我们也会对自己的算法很有信心（即便算法的准确性尚未确认）。事实上，随着新的测试结果出现，算法无误的可信度也在逐渐改变。

生活中，我们经常有意或无意地运用着贝叶斯定理，从算法的角度讲，如果想真正搞懂其中的原理，还需要对数理统计知识进行更加深入地学习和不断实践。

推荐方法

区域平台

贝叶斯分类

专注企业服务16年

采购合规

资金安全

全程保障

新手指南

交易保障