大语言模型
大语言模型 (Large Language Model, LLM) 是基于 Transformer 架构、在大规模文本数据上预训练的深度神经网络模型。它通过学习文本的统计规律,习得了语言理解、生成、推理和知识存储的能力。GPT-4、Claude、Gemini、DeepSeek 等都属于大语言模型。
Transformer 架构
Transformer (Vaswani et al., 2017) 是几乎所有现代大模型的基础架构。它的核心创新是自注意力机制 (Self-Attention),允许序列中任意两个位置直接交互,彻底解决了 RNN 的长距离依赖和并行化问题。
自注意力的核心计算:
其中输入经过三个线性变换得到查询 、键 、值 矩阵。 计算所有位置之间的相关度, 缩放防止内积过大,softmax 归一化为注意力权重,最后对 加权求和。
实际使用中,Transformer 通过多头注意力 (Multi-Head Attention) 将注意力拆分为多个"头"并行计算,每个头关注输入的不同方面(如语法关系、语义关联等),最后拼接输出。
Transformer 的一个完整块包含:多头注意力 → 残差连接 + 层归一化 → 前馈神经网络 → 残差连接 + 层归一化。多个这样的块堆叠起来就构成了完整的模型。现代大模型通常包含几十到上百个这样的块。
| Transformer 变体 | 说明 | 优先级 |
|---|---|---|
| 仅解码器 (Decoder-only) | GPT 系列、LLaMA、DeepSeek 等采用,自回归地逐 token 生成 | ⭐⭐⭐⭐⭐ |
| 仅编码器 (Encoder-only) | BERT 采用,擅长文本理解和分类任务 | ⭐⭐⭐ |
| 编码器-解码器 | T5、BART 采用,适合翻译、摘要等 Seq2Seq 任务 | ⭐⭐⭐ |
当前主流大模型几乎都采用仅解码器架构——它结构简单、扩展性好,并且通过 Scaling Law(增加参数和数据就能持续提升性能)展现了强大的潜力。
思维链 (Chain of Thought, CoT)
思维链是一种提示策略,引导模型在给出最终答案之前先输出中间推理步骤。这对需要逻辑推理、数学计算或多步分析的任务效果显著。
例如,不使用 CoT 时模型可能直接给出(错误的)答案;使用 CoT 后,模型会先列出推理过程"首先…然后…因此…",大幅提升答案的准确率。
CoT 的几种形式:
| 形式 | 说明 | 优先级 |
|---|---|---|
| 零样本 CoT | 在提示中加"让我们一步步思考" | ⭐⭐⭐⭐⭐ |
| 少样本 CoT | 给出几个带推理过程的示例 | ⭐⭐⭐⭐ |
| 自我一致性 (Self-Consistency) | 多次采样推理路径,投票选最终答案 | ⭐⭐⭐ |
| 思维树 (Tree of Thought) | 分支式探索多条推理路径 | ⭐⭐ |
MoE (混合专家模型)
MoE (Mixture of Experts) 是一种模型架构策略,将前馈网络层替换为多个"专家"子网络,每次推理时通过门控网络只激活其中一小部分专家。
这样做的好处是:模型的总参数量可以非常大(如 DeepSeek-V3 达 6710 亿参数),但每次推理只激活约 10~20% 的参数,计算成本与小得多的稠密模型相当。这使得 MoE 成为在保持推理效率的同时大幅提升模型容量的有效手段。
门控网络的职责是根据输入决定"哪些专家最适合处理当前输入"。不同的 token 可能被路由到不同的专家,实现了输入级别的专业化分工。
预训练 (Pre-training)
预训练是大模型训练的第一阶段,在大规模无标注文本(数万亿 token)上进行自监督学习。对于仅解码器模型,预训练任务是下一个 token 预测:
通过这个看似简单的目标,模型学会了语法、语义、世界知识、推理能力等。预训练需要海量数据和巨大算力——训练一个千亿参数的模型通常需要数千块 GPU 运行数周到数月。
预训练完成后的模型具备通用的语言能力,但还需要后续阶段的对齐才能成为好用的对话助手。常见的对齐方法包括监督微调 (SFT)(在高质量对话数据上训练)和 RLHF(通过人类反馈的强化学习优化模型行为)。
微调 (Fine-tuning)
微调是在预训练模型的基础上,用特定领域或特定任务的数据继续训练,使模型适应目标场景。
全参数微调(更新所有参数)对于大模型来说成本过高,因此参数高效微调 (PEFT) 方法成为主流:
| 方法 | 核心思想 | 可训练参数比例 | 优先级 |
|---|---|---|---|
| LoRA | 冻结原参数,在权重矩阵旁插入低秩分解矩阵 ( 和 为低秩矩阵) | < 1% | ⭐⭐⭐⭐⭐ |
| QLoRA | LoRA + 4bit 量化,进一步降低显存需求 | < 1% | ⭐⭐⭐⭐ |
| P-Tuning v2 | 在每层添加可学习的连续提示 | < 1% | ⭐⭐⭐ |
| Adapter | 在 Transformer 块中插入小型适配器模块 | 1~5% | ⭐⭐⭐ |
其中 LoRA 是目前最流行的微调方法。它的核心洞察是:微调产生的权重变化矩阵 通常是低秩的,因此可以用两个小矩阵的乘积来近似,大幅减少训练参数和显存。
蒸馏 (Distillation)
知识蒸馏用大模型(教师模型)的输出来训练小模型(学生模型),目标是让小模型在保持较高性能的同时体积大幅缩小。
蒸馏的核心是让学生模型不仅学习"正确答案"(硬标签),还学习教师模型的输出概率分布(软标签)。软标签包含了教师模型对各选项置信度的细微判断,比硬标签传递了更多信息。
其中 和 分别是教师和学生在温度 下的软化输出, 平衡硬标签和软标签的贡献。
蒸馏使得在资源受限的环境下(如移动端、边缘设备)也能部署高质量模型,是大模型落地的重要技术路径。