三大学习范式

机器学习根据训练数据中是否有标签以及学习的反馈方式，分为三大核心范式。每种范式对应不同类型的问题，使用不同的训练策略。

三大范式概览

监督学习 (Supervised Learning) 是最常见和最成熟的学习范式。训练数据包含输入和对应的标签（“答案”），模型的目标是学会从输入预测标签。

分类 (Classification)：预测离散类别（如垃圾邮件检测、图像识别）

\hat{y} = \arg\max_c P(y = c \mid x; \theta)

回归 (Regression)：预测连续数值（如房价预测、温度预测）

\hat{y} = f(x; \theta)

过拟合 vs 欠拟合：这是监督学习的核心矛盾。模型太复杂会记住噪声（过拟合），太简单会忽略规律（欠拟合）。解决方法包括正则化、交叉验证、早停 (Early Stopping)、数据增强等。

偏差-方差权衡 (Bias-Variance Tradeoff)：偏差来自模型的简化假设（欠拟合），方差来自对训练数据的过度敏感（过拟合）。总误差 = 偏差² + 方差 + 噪声，目标是找到最佳平衡点。

无监督学习 (Unsupervised Learning) 处理无标签数据，目标是发现数据的隐藏结构、模式或分布。

无监督学习的详细内容（特别是聚类和降维）见无监督学习专题页面。

无监督学习是模糊方法最早也是最成功的应用领域之一。传统 K-Means 要求每个数据点只属于一个聚类（硬聚类），而模糊 C 均值 (FCM) 允许数据点以不同程度属于多个聚类（软聚类），更符合现实中"边界模糊"的数据分布。

强化学习 (Reinforcement Learning, RL) 与前两者有本质区别：没有"正确答案"标签，而是通过与环境交互获得奖励信号，学习一个最大化长期累积奖励的策略 $\pi$ 。

强化学习的核心是马尔可夫决策过程 (MDP)：

\text{Agent} \xrightarrow{\text{动作 } a_t} \text{环境} \xrightarrow{\text{状态 } s_{t+1}, \text{奖励 } r_t} \text{Agent}

在每个时间步，智能体观察当前状态 $s_t$ ，选择动作 $a_t$ ，环境返回下一状态 $s_{t+1}$ 和即时奖励 $r_t$ 。目标是学习策略 $\pi(a|s)$ ，最大化累积折扣奖励：

G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}

其中 $\gamma \in [0,1]$ 是折扣因子，控制对未来奖励的重视程度。

强化学习在需要序列决策的问题中表现突出：游戏 AI（AlphaGo、Atari）、机器人控制、自动驾驶、推荐系统、大语言模型对齐（RLHF）。

三大范式并非完全独立，它们在多个方向上相互融合：