摘要#

在大模型与检索增强生成(RAG)体系中,语义检索能力的质量,往往直接决定了最终回答的准确性与可靠性。而语义检索的第一步,并不是向量计算或模型推理,而是对原始文档进行标准化处理与结构化组织。本章围绕“文档如何变成可检索知识”的核心问题展开,系统介绍从文档加载、切分、向量化到检索引擎构建的完整流程,帮助读者建立一个从数据到语义空间的整体认知框架。

本章首先介绍文档加载与标准化过程,说明在语义检索系统中如何将不同来源(如文本文件、网页、PDF等)的数据统一转换为标准文档对象。结合 LangChain 的文档抽象机制,讲解 Document 结构的设计思想,以及如何通过自定义加载器扩展不同类型数据的接入能力,使系统具备良好的通用性与可扩展性。在此基础上,引入语义检索的整体构建流程,使读者理解“文档—切分—向量化—检索”这一标准RAG管道的基本结构。

在文本切分部分,本章重点分析不同切分策略对检索效果的影响,包括按字符长度切分、按词元长度切分、基于语义边界的递归切分,以及基于文档结构的层级切分方法,并进一步讨论混合切分策略在实际工程中的应用价值。通过对比不同方法的优缺点,读者将理解切分不仅是技术问题,更是语义保留与检索精度之间的权衡问题。

在向量化与检索系统构建部分,本章介绍 Milvus 向量数据库的基本概念、部署方式与使用方法,使读者能够理解向量数据库在大规模语义检索中的核心作用。同时,引入 Qwen3 Embedding 模型及 DashScope Embeddings 接口,讲解文本向量化的原理与指令拼接机制,并通过示例说明如何将文本映射到高维语义空间。

最后,本章以语义搜索引擎的完整构建流程作为实践总结,从文档读取与切块、混合切分策略、向量库初始化,到文本入库与检索测试,完整串联起一个可运行的RAG系统实现路径,并进一步解析 Milvus 模块的内部结构与向量化流程。通过本章学习,读者将具备构建基础语义检索系统的能力,并为后续大模型应用开发打下坚实的工程基础。

本章内容

3.1 文档加载与标准化

本节围绕文档加载与标准化展开,重点介绍语义检索的基本构建流程、LangChain 中的标准化文档对象和常见文档类型的加载方式等内容。

3.2 常见文本切分策略

本节围绕常见文本切分策略展开,重点介绍文本切分、按字符长度切分和划分后的文本块等内容。

3.3 向量数据库选择

本节围绕向量数据库选择展开,重点介绍Milvus 介绍、Milvus 部署模式选择和Milvus 安装与基本概念等内容。

3.4 Qwen3 Embedding 模型介绍

本节围绕Qwen3 Embedding 模型介绍展开,重点介绍DashScopeEmbeddings 使用示例、Qwen3 Embedding 原理和Dashscope 使用示例等内容。

3.5 语义搜索引擎构建

本节围绕语义搜索引擎构建展开,重点介绍读取文档并切块、混合策略切块和向量库及 Embedding 模型初始化等内容。

3.6 Milvus 模块解析

Milvus 教程,讲解向量化流程、模块结构和检索链路,帮助理解 Milvus 在 RAG 系统中的作用。