摘要#

朴素贝叶斯是一类基于概率论与贝叶斯定理的经典分类算法,其核心思想是通过计算“在给定特征条件下类别出现的后验概率”来进行分类决策。尽管该模型在“特征条件独立性”这一假设上显得较为简化,但正是这种“朴素”的假设,使其在文本分类、垃圾邮件识别等高维稀疏数据场景中表现出良好的稳定性与高效性。本章围绕朴素贝叶斯的理论基础、不同变体及工程实现展开,帮助读者建立完整的概率分类模型认知体系。

本章首先介绍朴素贝叶斯算法的基本概念与核心原理,从贝叶斯定理出发推导分类决策公式,并结合具体计算示例说明如何在实际问题中进行概率计算与类别判定。同时,通过标准化的求解步骤,使读者能够掌握从数据输入到分类输出的完整流程。在此基础上,本章引入贝叶斯估计与平滑处理方法,解决零概率问题,使模型在小样本或稀疏特征条件下仍然具备稳定的预测能力。

在工程实现部分,本章通过“从零实现朴素贝叶斯算法”的案例,详细拆解模型训练与预测过程,包括特征计数、先验概率计算、条件概率估计以及后验概率推导,使读者能够深入理解模型内部计算机制。在此基础上,本章进一步扩展到多项式朴素贝叶斯模型,重点面向文本分类任务,说明如何基于词频统计构建分类器,并通过垃圾邮件分类案例展示其实际应用价值。

最后,本章介绍高斯朴素贝叶斯模型,针对连续型特征数据场景进行扩展,通过假设特征服从正态分布来计算条件概率,并与多项式模型进行对比分析,使读者理解不同朴素贝叶斯变体的适用边界与建模差异。通过本章学习,读者不仅能够掌握朴素贝叶斯的理论推导与代码实现,还能够根据数据类型选择合适的模型形式,为后续学习更复杂的概率图模型与生成式模型奠定基础。

本章内容

7.1 朴素贝叶斯算法

在本节中,我们首先介绍了朴素贝叶斯算法中的几个基本概念,然后详细介绍了朴素贝叶斯算法的原理,知道了“朴素”一词的含义及为什么可以通过贝叶斯算法来完成分类任务,最后对朴素贝叶斯算法的具体计算流程进行了总结。

7.2 贝叶斯估计

在本节中,我们介绍了如何处理在贝叶斯算法中条件概率为0时的处理方法,即贝叶斯估计,然后辨析了几个在贝叶斯算法中容易混淆的概念。值得一提的是,其实平滑处理这种做法不仅可以用于此处,在其他任何类似的情况中都可以借鉴这种做法。

7.3 朴素贝叶斯实现

经过前面两个小节内容的介绍,对于朴素贝叶斯算法的原理我们已经有了清晰的认识。在本节内容中,我们将开始分步对各个部分的实现进行详细地介绍。同时,需要说明的是以下实现代码均参考自sklearn 0.24.0 中的`CategoricalNB`模 …

7.4 多项式朴素贝叶斯原理与实现

在上一节内容中,我们详细介绍了一种常见的朴素贝叶斯算法,也被称之为Categorical Naive Bayes。但实际上,”朴素贝叶斯“算法远不止这一种,而它们之间的主要区别在于对条件概率的处理上[3],即式(7-10)中的部分。因此在接 …

7.5 高斯朴素贝叶斯原理与实现

在前面两节内容中,我们分别介绍了基于类别特征的Categorical朴素贝叶斯算法和基于特征权重的Multinomial朴素贝叶斯算法,而两者之间的唯一区别就体现在对条件概率的处理上。在接下来的这节内容中,我们将会介绍第3种基于朴素贝叶斯思 …