摘要#

自然语言处理（NLP）是深度学习应用最为广泛的领域之一，其核心目标是让计算机能够理解、表示并生成自然语言文本。与图像或结构化数据不同，自然语言具有高度的歧义性、上下文依赖性以及强烈的语义抽象特征，这使得NLP任务在建模上更具挑战性。从早期基于规则的语言处理方法，到统计语言模型，再到如今基于神经网络与大规模预训练模型的方案，NLP经历了从“人工设计规则”到“数据驱动学习”的深刻转变。本章将围绕这一演进过程，系统介绍自然语言处理中的核心方法与经典模型，帮助读者建立从语言建模到序列生成的完整认知框架。

本章首先介绍自然语言处理的基本概念与语言模型的发展历程，分析基于规则、统计方法以及神经网络方法在建模思想上的差异，使读者理解语言建模从显式规则到概率建模再到表示学习的演进逻辑。在此基础上，将重点讲解词向量表示方法，包括 Word2Vec 的核心思想、CBOW 与 Skip-gram 模型结构，以及词向量训练与使用方法，使读者理解如何将离散词汇映射为连续语义空间中的向量表示。随后，本章将进一步介绍 GloVe 模型，从全局词共现矩阵的角度解释词向量学习机制，并结合实际应用说明词嵌入在文本任务中的重要作用。

在模型应用层面，本章将介绍 fastText 文本分类模型，分析其通过浅层网络实现高效文本表示学习的设计思想，并展示词向量在分类任务中的实际使用方式。同时，本章将深入讲解 Seq2Seq 序列到序列模型，系统分析其编码器-解码器结构以及搜索策略在生成任务中的作用，并进一步介绍序列模型的评价指标，如困惑度等，用于衡量语言模型质量。在机器翻译任务中，本章将以神经机器翻译（NMT）为例，展示 Seq2Seq 模型的完整应用流程。

在更高层次的模型增强方法中，本章将重点介绍注意力机制，分析其如何解决传统 RNN 在长序列建模中的信息衰减问题，并讲解 Bahdanau 与 Luong 等经典注意力结构。同时，将进一步介绍带注意力机制的 NMT 模型以及带注意力的 RNN 结构，说明注意力机制如何在不同任务中提升模型对关键上下文信息的捕捉能力。通过本章学习，读者将全面掌握自然语言处理中的核心表示方法与序列建模技术，并为后续 Transformer 与大模型时代的学习打下坚实基础。

第 9 章 Word2Vec、GloVe、Seq2Seq 与注意力机制

摘要#

本章内容

9.1 自然语言处理介绍

9.2 Word2Vec词向量

9.3 Word2Vec训练与使用

9.4 GloVe词向量

9.5 词向量的微调使用

9.6 fastText网络

9.7 Seq2Seq网络

9.8 序列模型评价指标

9.9 NMT网络

9.10 注意力机制

9.11 含注意力的NMT网络

9.12 含注意力的RNN网络