深度学习 – 模糊决策与智能计算实验室

深度学习

深度学习 (Deep Learning) 是机器学习的子领域，通过多层神经网络自动学习数据的层次化表示。浅层提取低级特征（如边缘、纹理），深层组合为高级语义（如物体、概念）。深度学习在图像、文本、语音等领域取得了突破性成果。

基础概念

一个基本的全连接 (Fully Connected) 神经网络的计算过程：

h^{(l)} = \sigma(W^{(l)} h^{(l-1)} + b^{(l)})

其中 $h^{(l)}$ 是第 $l$ 层的激活值， $W^{(l)}$ 和 $b^{(l)}$ 分别是权重和偏置， $\sigma$ 是激活函数。

常用的激活函数：

深度网络通过反向传播 (Backpropagation) 计算梯度，结合随机梯度下降 (SGD) 及其变体优化参数：

CNN 专为处理网格状数据（如图像）设计。核心操作是卷积：用滑动的小窗口（卷积核）在输入上提取局部特征。

CNN 的三个核心组件：

CNN 的关键优势是参数共享——同一个卷积核在所有位置复用，大幅减少参数量。一个 3×3 的卷积核只需 9 个参数，无论输入图像多大。

经典架构演进：LeNet → AlexNet → VGGNet → ResNet → EfficientNet。其中 ResNet 通过引入残差连接 $h = F(x) + x$ 解决了深层网络的梯度消失问题，使训练几百层的网络成为可能。

RNN 专为处理序列数据（文本、时间序列）设计。它在每个时间步维护一个隐状态 $h_t$ ，编码了到当前步为止的信息：

h_t = \sigma(W_h h_{t-1} + W_x x_t + b)

基本 RNN 存在长期依赖问题——信息在长序列中逐渐消失（梯度消失）或爆炸。LSTM (Long Short-Term Memory) 通过引入门控机制解决这一问题：

LSTM 曾是序列建模的主力，但 Transformer 出现后逐渐被取代。在某些实时性要求高或序列较短的场景中仍有使用。

Transformer (Vaswani et al., 2017) 通过自注意力机制 (Self-Attention) 彻底改变了序列建模范式。它摒弃了 RNN 的递归结构，允许序列中任意两个位置直接交互。

自注意力的核心计算：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

其中 $Q, K, V$ 分别是查询、键、值矩阵， $d_k$ 是键的维度（缩放因子防止内积过大）。

Transformer 的优势：

Transformer 家族：

Transformer 是当前大语言模型与智能体的底层架构。

GAN 由生成器 $G$ 和判别器 $D$ 组成，通过对抗训练学习数据分布：

\min_G \max_D \ \mathbb{E}_{x \sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]

生成器试图生成"以假乱真"的样本，判别器试图区分真假。两者交替优化，最终生成器学会了数据分布。GAN 在图像生成、图像编辑、数据增强等领域成果突出，但训练不稳定（模式崩塌等问题）是持续的挑战。

入门建议：先理解 CNN（理解"局部特征提取"的思想），再学习 Transformer（理解"注意力"机制），最后了解 GAN。RNN/LSTM 作为背景知识了解即可。