摘要#

在正式进入卷积神经网络、循环神经网络以及 Transformer 等复杂结构之前，有必要先建立对深度学习“最底层逻辑”的系统理解。无论是图像识别、文本分类，还是大模型训练，其本质都可以抽象为“从数据中学习一个函数映射关系”。而这一过程的核心，正是由线性模型、损失函数、梯度优化以及模型评估等基础组件共同构成的。本章的目标并不是简单介绍若干算法，而是从最基础的线性回归出发，逐步引导读者理解神经网络是如何从简单模型一步步演化而来，从而建立对“学习机制”的整体认知。只有真正理解了这些基础概念，后续在面对复杂网络结构时，才能做到举一反三，而不是机械地调用框架API。

本章首先从线性回归出发，讲解其模型假设、求解方法以及多项式回归扩展，并进一步引出特征表达与非线性变换的思想，从而自然过渡到单层神经网络与深度神经网络的概念。在此基础上，通过 PyTorch 实现线性回归与简单预测任务，使读者初步掌握深度学习框架的基本使用方式。随后，本章将重点讲解梯度下降与反向传播算法，系统说明参数优化的数学原理与计算过程，并分析梯度消失与梯度爆炸等训练中的关键问题。接着，通过从零实现回归与分类模型，帮助读者加深对网络结构与训练流程的理解。在模型层面，本章还将介绍逻辑回归与 Softmax 回归之间的关系，并进一步扩展到多分类与多标签任务的建模方法。

在模型评估方面，本章将系统介绍回归与分类任务中的常用指标，包括准确率、精确率、召回率以及 Top-K 准确率等，并说明它们在不同场景下的适用性与局限性。同时，本章还将重点讨论模型训练中的核心问题——过拟合与欠拟合，从数据分布、模型复杂度与泛化误差的角度进行分析，并引入正则化与 Dropout 等常用解决方法。在此基础上，进一步介绍超参数选择与交叉验证的基本思想，以及不同激活函数（Sigmoid、Tanh、ReLU 等）在神经网络中的作用机制。通过本章学习，读者将不仅能够完成基础模型的构建与训练，还能够理解模型背后的优化逻辑与泛化能力来源，为后续卷积神经网络与序列模型的深入学习打下坚实基础。

第 3 章 Softmax 回归、反向传播与激活函数

摘要#

本章内容

3.1 线性回归

3.2 线性回归简洁实现

3.3 梯度下降与反向传播

3.4 从零实现回归模型

3.5 从逻辑回归到Softmax回归

3.6 Softmax回归简洁实现

3.7 从零实现分类模型

3.8 回归模型评估指标

3.9 分类模型评估指标

3.10 过拟合与正则化

3.11 超参数与交叉验证

3.12 激活函数

3.13 多标签分类