跳至内容
三大学习范式

三大学习范式

机器学习根据训练数据中是否有标签以及学习的反馈方式,分为三大核心范式。每种范式对应不同类型的问题,使用不同的训练策略。

三大范式概览

范式数据形式学习目标典型任务
监督学习(x,y)(x, y) 输入-标签对学习 f:xyf: x \to y 的映射分类、回归
无监督学习xx(无标签)发现数据的内在结构聚类、降维
强化学习状态-动作-奖励序列学习最大化长期奖励的策略游戏、机器人控制

监督学习

监督学习 (Supervised Learning) 是最常见和最成熟的学习范式。训练数据包含输入和对应的标签(“答案”),模型的目标是学会从输入预测标签。

两类核心任务

分类 (Classification):预测离散类别(如垃圾邮件检测、图像识别)

y^=argmaxcP(y=cx;θ) \hat{y} = \arg\max_c P(y = c \mid x; \theta)

回归 (Regression):预测连续数值(如房价预测、温度预测)

y^=f(x;θ) \hat{y} = f(x; \theta)

关键算法

算法任务类型核心思想优先级
线性/逻辑回归回归/分类学习线性关系 + Sigmoid 分类边界⭐⭐⭐⭐⭐
KNN分类/回归用最近邻的标签投票⭐⭐⭐
决策树分类/回归递归划分特征空间⭐⭐⭐⭐
随机森林分类/回归多棵树的集成 (Bagging)⭐⭐⭐⭐
XGBoost / LightGBM分类/回归梯度提升集成 (Boosting)⭐⭐⭐⭐
SVM分类最大间隔超平面 + 核方法⭐⭐⭐
深度神经网络通用多层非线性变换⭐⭐⭐⭐⭐

核心挑战

过拟合 vs 欠拟合:这是监督学习的核心矛盾。模型太复杂会记住噪声(过拟合),太简单会忽略规律(欠拟合)。解决方法包括正则化、交叉验证、早停 (Early Stopping)、数据增强等。

偏差-方差权衡 (Bias-Variance Tradeoff):偏差来自模型的简化假设(欠拟合),方差来自对训练数据的过度敏感(过拟合)。总误差 = 偏差² + 方差 + 噪声,目标是找到最佳平衡点。

无监督学习

无监督学习 (Unsupervised Learning) 处理无标签数据,目标是发现数据的隐藏结构、模式或分布。

核心任务

任务目标代表算法优先级
聚类将相似数据分组K-Means, FCM, DBSCAN⭐⭐⭐⭐⭐
降维将高维数据映射到低维空间PCA, t-SNE, UMAP⭐⭐⭐⭐
异常检测识别偏离正常模式的数据孤立森林, LOF⭐⭐⭐
密度估计估计数据的概率分布GMM, KDE⭐⭐⭐
生成模型学习数据分布并生成新样本VAE, GAN⭐⭐⭐

无监督学习的详细内容(特别是聚类和降维)见无监督学习专题页面。

与模糊集的联系

无监督学习是模糊方法最早也是最成功的应用领域之一。传统 K-Means 要求每个数据点只属于一个聚类(硬聚类),而模糊 C 均值 (FCM) 允许数据点以不同程度属于多个聚类(软聚类),更符合现实中"边界模糊"的数据分布。

强化学习

强化学习 (Reinforcement Learning, RL) 与前两者有本质区别:没有"正确答案"标签,而是通过与环境交互获得奖励信号,学习一个最大化长期累积奖励的策略 π\pi

基本框架

强化学习的核心是马尔可夫决策过程 (MDP)

Agent动作 at环境状态 st+1,奖励 rtAgent \text{Agent} \xrightarrow{\text{动作 } a_t} \text{环境} \xrightarrow{\text{状态 } s_{t+1}, \text{奖励 } r_t} \text{Agent}

在每个时间步,智能体观察当前状态 sts_t,选择动作 ata_t,环境返回下一状态 st+1s_{t+1} 和即时奖励 rtr_t。目标是学习策略 π(as)\pi(a|s),最大化累积折扣奖励

Gt=k=0γkrt+k G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}

其中 γ[0,1]\gamma \in [0,1] 是折扣因子,控制对未来奖励的重视程度。

核心算法

类别代表算法核心思想优先级
值函数方法Q-Learning, DQN学习状态(动作)的价值函数⭐⭐⭐⭐⭐
策略梯度REINFORCE, PPO直接优化策略参数⭐⭐⭐⭐
Actor-CriticA3C, SAC同时学习策略(Actor)和价值(Critic)⭐⭐⭐⭐
模型预测World Model, Dreamer学习环境模型用于规划⭐⭐⭐

典型应用

强化学习在需要序列决策的问题中表现突出:游戏 AI(AlphaGo、Atari)、机器人控制、自动驾驶、推荐系统、大语言模型对齐(RLHF)。

范式的交叉与融合

三大范式并非完全独立,它们在多个方向上相互融合:

交叉方向说明
半监督学习少量标签 + 大量无标签数据,结合监督和无监督的优势
自监督学习从数据本身构造"伪标签"(如掩码预测),不需要人工标注
模仿学习从专家示范中学习策略,结合监督学习和强化学习思想
对比学习学习区分"相似"和"不同"样本的表示,属于自监督学习的分支