深度学习
深度学习 (Deep Learning) 是机器学习的子领域,通过多层神经网络自动学习数据的层次化表示。浅层提取低级特征(如边缘、纹理),深层组合为高级语义(如物体、概念)。深度学习在图像、文本、语音等领域取得了突破性成果。
基础概念
神经网络基础
一个基本的全连接 (Fully Connected) 神经网络的计算过程:
其中 是第 层的激活值, 和 分别是权重和偏置, 是激活函数。
常用的激活函数:
| 函数 | 公式 | 特点 | 优先级 |
|---|---|---|---|
| ReLU | 简单高效,缓解梯度消失,最常用 | ⭐⭐⭐⭐⭐ | |
| Sigmoid | 输出 ,用于二分类输出层 | ⭐⭐⭐⭐ | |
| Tanh | 输出 ,零中心 | ⭐⭐⭐ | |
| GELU | Transformer 中常用 | ⭐⭐⭐⭐ |
训练方法
深度网络通过反向传播 (Backpropagation) 计算梯度,结合随机梯度下降 (SGD) 及其变体优化参数:
| 优化器 | 特点 | 优先级 |
|---|---|---|
| SGD + Momentum | 基础优化器,加动量加速收敛 | ⭐⭐⭐⭐ |
| Adam | 自适应学习率,现代默认选择 | ⭐⭐⭐⭐⭐ |
| AdamW | Adam + 权重衰减(解耦正则化) | ⭐⭐⭐⭐⭐ |
核心架构
CNN (卷积神经网络)
CNN 专为处理网格状数据(如图像)设计。核心操作是卷积:用滑动的小窗口(卷积核)在输入上提取局部特征。
CNN 的三个核心组件:
| 组件 | 作用 |
|---|---|
| 卷积层 | 用卷积核提取局部空间特征(边缘、纹理、形状) |
| 池化层 | 下采样,降低特征图的空间分辨率,增加平移不变性 |
| 全连接层 | 将提取的特征映射到输出空间(如分类类别数) |
CNN 的关键优势是参数共享——同一个卷积核在所有位置复用,大幅减少参数量。一个 3×3 的卷积核只需 9 个参数,无论输入图像多大。
经典架构演进:LeNet → AlexNet → VGGNet → ResNet → EfficientNet。其中 ResNet 通过引入残差连接 解决了深层网络的梯度消失问题,使训练几百层的网络成为可能。
RNN / LSTM (循环神经网络)
RNN 专为处理序列数据(文本、时间序列)设计。它在每个时间步维护一个隐状态 ,编码了到当前步为止的信息:
基本 RNN 存在长期依赖问题——信息在长序列中逐渐消失(梯度消失)或爆炸。LSTM (Long Short-Term Memory) 通过引入门控机制解决这一问题:
| 门 | 作用 |
|---|---|
| 遗忘门 | 决定从上一步的记忆中遗忘多少 |
| 输入门 | 决定从当前输入中接收多少新信息 |
| 输出门 | 决定从记忆中输出多少到隐状态 |
LSTM 曾是序列建模的主力,但 Transformer 出现后逐渐被取代。在某些实时性要求高或序列较短的场景中仍有使用。
Transformer
Transformer (Vaswani et al., 2017) 通过自注意力机制 (Self-Attention) 彻底改变了序列建模范式。它摒弃了 RNN 的递归结构,允许序列中任意两个位置直接交互。
自注意力的核心计算:
其中 分别是查询、键、值矩阵, 是键的维度(缩放因子防止内积过大)。
Transformer 的优势:
- 并行化:不像 RNN 必须按步序计算,所有位置可以同时处理
- 长距离依赖:任意两个位置的交互只需一步,不受距离影响
- 可扩展性:可以通过增加参数和数据持续提升性能(Scaling Law)
Transformer 家族:
| 类型 | 代表 | 训练方式 | 应用 | 优先级 |
|---|---|---|---|---|
| 仅编码器 | BERT | 掩码语言模型 (MLM) | 文本理解、分类 | ⭐⭐⭐⭐ |
| 仅解码器 | GPT 系列 | 下一个 token 预测 | 文本生成、对话 | ⭐⭐⭐⭐⭐ |
| 编码器-解码器 | T5, BART | Seq2Seq | 翻译、摘要 | ⭐⭐⭐ |
| 视觉 Transformer | ViT, Swin | 将图像分成 patch 作为 token | 图像分类、检测 | ⭐⭐⭐⭐ |
Transformer 是当前大语言模型与智能体的底层架构。
GAN (生成对抗网络)
GAN 由生成器 和判别器 组成,通过对抗训练学习数据分布:
生成器试图生成"以假乱真"的样本,判别器试图区分真假。两者交替优化,最终生成器学会了数据分布。GAN 在图像生成、图像编辑、数据增强等领域成果突出,但训练不稳定(模式崩塌等问题)是持续的挑战。
架构对比
| 架构 | 数据类型 | 核心机制 | 主要场景 | 优先级 |
|---|---|---|---|---|
| CNN | 网格/图像 | 局部卷积 + 池化 | 图像分类/检测/分割 | ⭐⭐⭐⭐⭐ |
| RNN/LSTM | 序列 | 循环隐状态 + 门控 | 时间序列(逐渐被 Transformer 替代) | ⭐⭐⭐ |
| Transformer | 序列/通用 | 自注意力 + 位置编码 | NLP、CV、多模态(当前主流) | ⭐⭐⭐⭐⭐ |
| GAN | 任意 | 生成器-判别器对抗 | 数据生成、图像合成 | ⭐⭐⭐ |
入门建议:先理解 CNN(理解"局部特征提取"的思想),再学习 Transformer(理解"注意力"机制),最后了解 GAN。RNN/LSTM 作为背景知识了解即可。