摘要#

在真实的人工智能应用场景中，数据往往并不单一存在于某一种形式之中，而是同时包含空间结构与时间依赖。例如文本数据既具有局部语义结构，又存在上下文顺序关系；视频数据则同时具备空间信息与时间演化特征。单一模型（如仅CNN或仅RNN）通常难以充分捕捉这类复杂数据的多维结构，因此，如何将不同类型的神经网络进行融合，成为提升模型表达能力的重要研究方向。本章将围绕时序建模与模型融合方法展开，介绍多种经典混合网络结构，帮助读者理解如何结合CNN与RNN的优势来构建更强大的模型。

本章首先介绍 TextCNN 与 TextRNN 两种经典文本建模方法，分别从卷积视角与循环视角解释文本特征提取机制，使读者理解局部模式与序列依赖在文本任务中的不同作用。在此基础上，将进一步介绍 CNN-RNN 融合结构，如 C-LSTM 与 BiLSTM-CNN，通过将卷积特征提取能力与循环序列建模能力结合，实现对文本与序列数据更全面的表示学习。随后，本章将拓展到更复杂的时序数据建模任务，介绍 ConvLSTM 网络，分析其如何将卷积操作引入循环结构，从而同时处理空间与时间维度的信息，并结合 KTH 动作识别数据集展示其在视频理解任务中的应用方式。

在更高维度的时空建模方法中，本章还将介绍 3DCNN 网络，说明其通过三维卷积直接建模视频数据中的时空特征，从而避免手工拆分时间与空间结构的问题。同时，本章将进一步讲解 STResNet 网络，结合交通流量预测等实际任务，分析其如何融合残差网络与时空依赖建模机制，以提升对复杂时空数据的预测能力。通过本章学习，读者将掌握多种时序与结构融合模型的设计思想，理解不同网络在空间与时间建模中的分工与协同方式，并为后续学习现代 Transformer 与大模型中的统一建模范式奠定基础。

第 8 章 TextCNN、TextRNN、ConvLSTM 与 3DCNN 教程

摘要#

本章内容

8.1 TextCNN网络

8.2 TextRNN网络

8.3 CNN-RNN网络

8.4 ConvLSTM网络

8.5 3DCNN网络

8.6 STResNet网络