摘要#

K近邻（K-Nearest Neighbors, KNN）是一种直观且经典的机器学习算法，它不依赖复杂的模型假设，而是通过“相似样本具有相似输出”的基本思想来进行预测。作为一种典型的“惰性学习”方法，KNN在训练阶段几乎不进行显式建模，而是在预测阶段根据距离度量在样本空间中寻找最相近的K个邻居，并通过这些邻居的标签来推断目标样本的类别或数值。本章围绕K近邻算法的思想、原理与工程实现展开，使读者能够从几何直觉与算法结构两个层面全面理解这一基础方法。

本章首先介绍K近邻算法的基本思想与核心原理，包括如何通过距离度量衡量样本相似性，以及K值选择对模型偏差与方差的影响。在此基础上，系统分析欧式距离等常见距离度量方式在不同场景下的适用性，使读者理解“距离定义决定模型行为”的关键思想。同时，本章通过sklearn接口的使用示例，展示如何快速构建KNN分类与回归模型，从而帮助读者掌握工业级工具中的标准实现方式。

在算法优化部分，本章进一步引入kd树结构，用于解决高维空间中KNN计算效率低的问题。通过构造kd树与递归搜索策略，读者可以理解如何通过空间划分与剪枝加速最近邻查询，并扩展到K近邻搜索场景。本章还通过示例代码展示kd树的构建与查询过程，使抽象的数据结构与实际算法执行过程相结合，从而提升对算法效率优化的理解。

最后，本章通过“从零实现K近邻算法”的完整案例，将kd树构建、最近邻搜索与K近邻预测流程串联起来，使读者能够深入理解KNN从理论到工程实现的完整链路。通过本章学习，读者不仅能够熟练使用K近邻算法解决实际问题，还能够理解其背后的几何直觉与数据结构优化思想，为后续学习更复杂的非参数模型与集成学习方法打下基础。

第 5 章 K近邻（KNN）原理、kd树与 sklearn 实战

摘要#

本章内容

5.1 K近邻思想

5.2 K近邻原理

5.3 sklearn接口与示例代码

5.4 kd树构建与搜索

5.5 从零实现K近邻