摘要#

决策树是一类直观且可解释性极强的机器学习算法，它通过“条件分支”的方式对数据进行逐层划分，最终形成类似树状结构的决策模型。与线性模型或概率模型不同，决策树更贴近人类的决策逻辑，因此在分类与回归任务中都具有广泛应用。本章围绕决策树的基本思想、生成算法、剪枝方法以及不同实现版本展开，使读者能够从信息论与结构化建模两个角度全面理解这一经典模型。

本章首先从决策树的基本思想出发，通过“冠军球队”等直观案例引入信息划分的概念，并进一步解释信息熵作为衡量不确定性的核心指标。在此基础上，系统讲解决策树建模过程，并结合sklearn示例展示如何快速构建与可视化决策树模型，使读者能够直观理解树结构如何逐层分裂数据空间。

在算法层面，本章重点介绍ID3与C4.5两种经典决策树生成方法，详细讲解信息增益与信息增益比在特征选择中的作用，并通过计算示例帮助读者理解特征划分的本质。同时，本章进一步引入剪枝机制，从预剪枝与后剪枝两个角度解释如何控制模型复杂度，以避免过拟合问题，使决策树在训练数据之外仍然具有良好的泛化能力。

在工程实现部分，本章通过“从零实现ID3与C4.5决策树算法”的完整过程，系统拆解节点定义、熵计算、树构建、预测与剪枝等关键模块，使读者能够深入理解决策树的内部运行机制。在此基础上，本章进一步扩展到连续型特征处理方法，说明如何通过特征离散化或最优切分点选择来支持连续变量建模。

最后，本章介绍CART算法及其在分类树构建中的应用，重点讲解基尼指数作为划分标准的原理，并通过从零实现CART决策树的案例展示完整的训练与剪枝流程。通过本章学习，读者不仅能够掌握多种决策树算法的理论差异与实现方法，还能够理解其背后的信息论基础与模型复杂度控制思想，为后续集成学习算法的学习打下重要基础。

第 8 章决策树原理、ID3、C4.5 与 CART

摘要#

本章内容

8.1 决策树的基本思想

8.2 决策树建模与可视化

8.3 决策树生成之ID3与C4.5

8.4 决策树剪枝过程

8.5 从零实现ID3与C4.5算法

8.6 连续型特征变量下决策树实现

8.7 CART生成与剪枝算法

8.8 从零实现CART算法及剪枝示例