摘要#

在大模型与检索增强生成（RAG）体系中，语义检索能力的质量，往往直接决定了最终回答的准确性与可靠性。而语义检索的第一步，并不是向量计算或模型推理，而是对原始文档进行标准化处理与结构化组织。本章围绕“文档如何变成可检索知识”的核心问题展开，系统介绍从文档加载、切分、向量化到检索引擎构建的完整流程，帮助读者建立一个从数据到语义空间的整体认知框架。

本章首先介绍文档加载与标准化过程，说明在语义检索系统中如何将不同来源（如文本文件、网页、PDF等）的数据统一转换为标准文档对象。结合 LangChain 的文档抽象机制，讲解 Document 结构的设计思想，以及如何通过自定义加载器扩展不同类型数据的接入能力，使系统具备良好的通用性与可扩展性。在此基础上，引入语义检索的整体构建流程，使读者理解“文档—切分—向量化—检索”这一标准RAG管道的基本结构。

在文本切分部分，本章重点分析不同切分策略对检索效果的影响，包括按字符长度切分、按词元长度切分、基于语义边界的递归切分，以及基于文档结构的层级切分方法，并进一步讨论混合切分策略在实际工程中的应用价值。通过对比不同方法的优缺点，读者将理解切分不仅是技术问题，更是语义保留与检索精度之间的权衡问题。

在向量化与检索系统构建部分，本章介绍 Milvus 向量数据库的基本概念、部署方式与使用方法，使读者能够理解向量数据库在大规模语义检索中的核心作用。同时，引入 Qwen3 Embedding 模型及 DashScope Embeddings 接口，讲解文本向量化的原理与指令拼接机制，并通过示例说明如何将文本映射到高维语义空间。

最后，本章以语义搜索引擎的完整构建流程作为实践总结，从文档读取与切块、混合切分策略、向量库初始化，到文本入库与检索测试，完整串联起一个可运行的RAG系统实现路径，并进一步解析 Milvus 模块的内部结构与向量化流程。通过本章学习，读者将具备构建基础语义检索系统的能力，并为后续大模型应用开发打下坚实的工程基础。

第 3 章文档切分、向量数据库、Embedding 与语义检索

摘要#

本章内容

3.1 文档加载与标准化

3.2 常见文本切分策略

3.3 向量数据库选择

3.4 Qwen3 Embedding 模型介绍

3.5 语义搜索引擎构建

3.6 Milvus 模块解析