跳至内容

深度学习

深度学习 (Deep Learning) 是机器学习的子领域,通过多层神经网络自动学习数据的层次化表示。浅层提取低级特征(如边缘、纹理),深层组合为高级语义(如物体、概念)。深度学习在图像、文本、语音等领域取得了突破性成果。

基础概念

神经网络基础

一个基本的全连接 (Fully Connected) 神经网络的计算过程:

h(l)=σ(W(l)h(l1)+b(l)) h^{(l)} = \sigma(W^{(l)} h^{(l-1)} + b^{(l)})

其中 h(l)h^{(l)} 是第 ll 层的激活值,W(l)W^{(l)}b(l)b^{(l)} 分别是权重和偏置,σ\sigma 是激活函数。

常用的激活函数:

函数公式特点优先级
ReLUmax(0,x)\max(0, x)简单高效,缓解梯度消失,最常用⭐⭐⭐⭐⭐
Sigmoid11+ex\frac{1}{1+e^{-x}}输出 (0,1)(0,1),用于二分类输出层⭐⭐⭐⭐
Tanhexexex+ex\frac{e^x - e^{-x}}{e^x + e^{-x}}输出 (1,1)(-1,1),零中心⭐⭐⭐
GELUxΦ(x)x \cdot \Phi(x)Transformer 中常用⭐⭐⭐⭐

训练方法

深度网络通过反向传播 (Backpropagation) 计算梯度,结合随机梯度下降 (SGD) 及其变体优化参数:

优化器特点优先级
SGD + Momentum基础优化器,加动量加速收敛⭐⭐⭐⭐
Adam自适应学习率,现代默认选择⭐⭐⭐⭐⭐
AdamWAdam + 权重衰减(解耦正则化)⭐⭐⭐⭐⭐

核心架构

CNN (卷积神经网络)

CNN 专为处理网格状数据(如图像)设计。核心操作是卷积:用滑动的小窗口(卷积核)在输入上提取局部特征。

CNN 的三个核心组件:

组件作用
卷积层用卷积核提取局部空间特征(边缘、纹理、形状)
池化层下采样,降低特征图的空间分辨率,增加平移不变性
全连接层将提取的特征映射到输出空间(如分类类别数)

CNN 的关键优势是参数共享——同一个卷积核在所有位置复用,大幅减少参数量。一个 3×3 的卷积核只需 9 个参数,无论输入图像多大。

经典架构演进:LeNet → AlexNet → VGGNet → ResNet → EfficientNet。其中 ResNet 通过引入残差连接 h=F(x)+xh = F(x) + x 解决了深层网络的梯度消失问题,使训练几百层的网络成为可能。

RNN / LSTM (循环神经网络)

RNN 专为处理序列数据(文本、时间序列)设计。它在每个时间步维护一个隐状态 hth_t,编码了到当前步为止的信息:

ht=σ(Whht1+Wxxt+b) h_t = \sigma(W_h h_{t-1} + W_x x_t + b)

基本 RNN 存在长期依赖问题——信息在长序列中逐渐消失(梯度消失)或爆炸。LSTM (Long Short-Term Memory) 通过引入门控机制解决这一问题:

作用
遗忘门 ftf_t决定从上一步的记忆中遗忘多少
输入门 iti_t决定从当前输入中接收多少新信息
输出门 oto_t决定从记忆中输出多少到隐状态

LSTM 曾是序列建模的主力,但 Transformer 出现后逐渐被取代。在某些实时性要求高或序列较短的场景中仍有使用。

Transformer

Transformer (Vaswani et al., 2017) 通过自注意力机制 (Self-Attention) 彻底改变了序列建模范式。它摒弃了 RNN 的递归结构,允许序列中任意两个位置直接交互。

自注意力的核心计算

Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

其中 Q,K,VQ, K, V 分别是查询、键、值矩阵,dkd_k 是键的维度(缩放因子防止内积过大)。

Transformer 的优势

  • 并行化:不像 RNN 必须按步序计算,所有位置可以同时处理
  • 长距离依赖:任意两个位置的交互只需一步,不受距离影响
  • 可扩展性:可以通过增加参数和数据持续提升性能(Scaling Law)

Transformer 家族

类型代表训练方式应用优先级
仅编码器BERT掩码语言模型 (MLM)文本理解、分类⭐⭐⭐⭐
仅解码器GPT 系列下一个 token 预测文本生成、对话⭐⭐⭐⭐⭐
编码器-解码器T5, BARTSeq2Seq翻译、摘要⭐⭐⭐
视觉 TransformerViT, Swin将图像分成 patch 作为 token图像分类、检测⭐⭐⭐⭐

Transformer 是当前大语言模型与智能体的底层架构。

GAN (生成对抗网络)

GAN 由生成器 GG 和判别器 DD 组成,通过对抗训练学习数据分布:

minGmaxD Expdata[logD(x)]+Ezpz[log(1D(G(z)))] \min_G \max_D \ \mathbb{E}_{x \sim p_{\text{data}}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]

生成器试图生成"以假乱真"的样本,判别器试图区分真假。两者交替优化,最终生成器学会了数据分布。GAN 在图像生成、图像编辑、数据增强等领域成果突出,但训练不稳定(模式崩塌等问题)是持续的挑战。

架构对比

架构数据类型核心机制主要场景优先级
CNN网格/图像局部卷积 + 池化图像分类/检测/分割⭐⭐⭐⭐⭐
RNN/LSTM序列循环隐状态 + 门控时间序列(逐渐被 Transformer 替代)⭐⭐⭐
Transformer序列/通用自注意力 + 位置编码NLP、CV、多模态(当前主流)⭐⭐⭐⭐⭐
GAN任意生成器-判别器对抗数据生成、图像合成⭐⭐⭐

入门建议:先理解 CNN(理解"局部特征提取"的思想),再学习 Transformer(理解"注意力"机制),最后了解 GAN。RNN/LSTM 作为背景知识了解即可。