大语言模型

大语言模型 (Large Language Model, LLM) 是基于 Transformer 架构、在大规模文本数据上预训练的深度神经网络模型。它通过学习文本的统计规律，习得了语言理解、生成、推理和知识存储的能力。GPT-4、Claude、Gemini、DeepSeek 等都属于大语言模型。

Transformer 架构

Transformer (Vaswani et al., 2017) 是几乎所有现代大模型的基础架构。它的核心创新是自注意力机制 (Self-Attention)，允许序列中任意两个位置直接交互，彻底解决了 RNN 的长距离依赖和并行化问题。

自注意力的核心计算：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

其中输入经过三个线性变换得到查询 $Q$ 、键 $K$ 、值 $V$ 矩阵。 $QK^T$ 计算所有位置之间的相关度， $\sqrt{d_k}$ 缩放防止内积过大，softmax 归一化为注意力权重，最后对 $V$ 加权求和。

实际使用中，Transformer 通过多头注意力 (Multi-Head Attention) 将注意力拆分为多个"头"并行计算，每个头关注输入的不同方面（如语法关系、语义关联等），最后拼接输出。

Transformer 的一个完整块包含：多头注意力 → 残差连接 + 层归一化 → 前馈神经网络 → 残差连接 + 层归一化。多个这样的块堆叠起来就构成了完整的模型。现代大模型通常包含几十到上百个这样的块。

Transformer 变体	说明	优先级
仅解码器 (Decoder-only)	GPT 系列、LLaMA、DeepSeek 等采用，自回归地逐 token 生成	⭐⭐⭐⭐⭐
仅编码器 (Encoder-only)	BERT 采用，擅长文本理解和分类任务	⭐⭐⭐
编码器-解码器	T5、BART 采用，适合翻译、摘要等 Seq2Seq 任务	⭐⭐⭐

当前主流大模型几乎都采用仅解码器架构——它结构简单、扩展性好，并且通过 Scaling Law（增加参数和数据就能持续提升性能）展现了强大的潜力。

思维链 (Chain of Thought, CoT)

思维链是一种提示策略，引导模型在给出最终答案之前先输出中间推理步骤。这对需要逻辑推理、数学计算或多步分析的任务效果显著。

例如，不使用 CoT 时模型可能直接给出（错误的）答案；使用 CoT 后，模型会先列出推理过程"首先…然后…因此…"，大幅提升答案的准确率。

CoT 的几种形式：

形式	说明	优先级
零样本 CoT	在提示中加"让我们一步步思考"	⭐⭐⭐⭐⭐
少样本 CoT	给出几个带推理过程的示例	⭐⭐⭐⭐
自我一致性 (Self-Consistency)	多次采样推理路径，投票选最终答案	⭐⭐⭐
思维树 (Tree of Thought)	分支式探索多条推理路径	⭐⭐

MoE (混合专家模型)

MoE (Mixture of Experts) 是一种模型架构策略，将前馈网络层替换为多个"专家"子网络，每次推理时通过门控网络只激活其中一小部分专家。

这样做的好处是：模型的总参数量可以非常大（如 DeepSeek-V3 达 6710 亿参数），但每次推理只激活约 10~20% 的参数，计算成本与小得多的稠密模型相当。这使得 MoE 成为在保持推理效率的同时大幅提升模型容量的有效手段。

门控网络的职责是根据输入决定"哪些专家最适合处理当前输入"。不同的 token 可能被路由到不同的专家，实现了输入级别的专业化分工。

预训练 (Pre-training)

预训练是大模型训练的第一阶段，在大规模无标注文本（数万亿 token）上进行自监督学习。对于仅解码器模型，预训练任务是下一个 token 预测：

\mathcal{L} = -\sum_{t=1}^{T} \log P(x_t \mid x_1, \dots, x_{t-1}; \theta)

通过这个看似简单的目标，模型学会了语法、语义、世界知识、推理能力等。预训练需要海量数据和巨大算力——训练一个千亿参数的模型通常需要数千块 GPU 运行数周到数月。

预训练完成后的模型具备通用的语言能力，但还需要后续阶段的对齐才能成为好用的对话助手。常见的对齐方法包括监督微调 (SFT)（在高质量对话数据上训练）和 RLHF（通过人类反馈的强化学习优化模型行为）。

微调 (Fine-tuning)

微调是在预训练模型的基础上，用特定领域或特定任务的数据继续训练，使模型适应目标场景。

全参数微调（更新所有参数）对于大模型来说成本过高，因此参数高效微调 (PEFT) 方法成为主流：

方法	核心思想	可训练参数比例	优先级
LoRA	冻结原参数，在权重矩阵旁插入低秩分解矩阵 $\Delta W = BA$ （ $B$ 和 $A$ 为低秩矩阵）	< 1%	⭐⭐⭐⭐⭐
QLoRA	LoRA + 4bit 量化，进一步降低显存需求	< 1%	⭐⭐⭐⭐
P-Tuning v2	在每层添加可学习的连续提示	< 1%	⭐⭐⭐
Adapter	在 Transformer 块中插入小型适配器模块	1~5%	⭐⭐⭐

其中 LoRA 是目前最流行的微调方法。它的核心洞察是：微调产生的权重变化矩阵 $\Delta W$ 通常是低秩的，因此可以用两个小矩阵的乘积来近似，大幅减少训练参数和显存。

蒸馏 (Distillation)

知识蒸馏用大模型（教师模型）的输出来训练小模型（学生模型），目标是让小模型在保持较高性能的同时体积大幅缩小。

蒸馏的核心是让学生模型不仅学习"正确答案"（硬标签），还学习教师模型的输出概率分布（软标签）。软标签包含了教师模型对各选项置信度的细微判断，比硬标签传递了更多信息。

\mathcal{L}_{\text{distill}} = \alpha \cdot \text{CE}(y, p_s) + (1-\alpha) \cdot T^2 \cdot \text{KL}(p_t^{(T)} \| p_s^{(T)})

其中 $p_t^{(T)}$ 和 $p_s^{(T)}$ 分别是教师和学生在温度 $T$ 下的软化输出， $\alpha$ 平衡硬标签和软标签的贡献。

蒸馏使得在资源受限的环境下（如移动端、边缘设备）也能部署高质量模型，是大模型落地的重要技术路径。

智能体