三大学习范式
机器学习根据训练数据中是否有标签以及学习的反馈方式,分为三大核心范式。每种范式对应不同类型的问题,使用不同的训练策略。
三大范式概览
| 范式 | 数据形式 | 学习目标 | 典型任务 |
|---|---|---|---|
| 监督学习 | 输入-标签对 | 学习 的映射 | 分类、回归 |
| 无监督学习 | (无标签) | 发现数据的内在结构 | 聚类、降维 |
| 强化学习 | 状态-动作-奖励序列 | 学习最大化长期奖励的策略 | 游戏、机器人控制 |
监督学习
监督学习 (Supervised Learning) 是最常见和最成熟的学习范式。训练数据包含输入和对应的标签(“答案”),模型的目标是学会从输入预测标签。
两类核心任务
分类 (Classification):预测离散类别(如垃圾邮件检测、图像识别)
回归 (Regression):预测连续数值(如房价预测、温度预测)
关键算法
| 算法 | 任务类型 | 核心思想 | 优先级 |
|---|---|---|---|
| 线性/逻辑回归 | 回归/分类 | 学习线性关系 + Sigmoid 分类边界 | ⭐⭐⭐⭐⭐ |
| KNN | 分类/回归 | 用最近邻的标签投票 | ⭐⭐⭐ |
| 决策树 | 分类/回归 | 递归划分特征空间 | ⭐⭐⭐⭐ |
| 随机森林 | 分类/回归 | 多棵树的集成 (Bagging) | ⭐⭐⭐⭐ |
| XGBoost / LightGBM | 分类/回归 | 梯度提升集成 (Boosting) | ⭐⭐⭐⭐ |
| SVM | 分类 | 最大间隔超平面 + 核方法 | ⭐⭐⭐ |
| 深度神经网络 | 通用 | 多层非线性变换 | ⭐⭐⭐⭐⭐ |
核心挑战
过拟合 vs 欠拟合:这是监督学习的核心矛盾。模型太复杂会记住噪声(过拟合),太简单会忽略规律(欠拟合)。解决方法包括正则化、交叉验证、早停 (Early Stopping)、数据增强等。
偏差-方差权衡 (Bias-Variance Tradeoff):偏差来自模型的简化假设(欠拟合),方差来自对训练数据的过度敏感(过拟合)。总误差 = 偏差² + 方差 + 噪声,目标是找到最佳平衡点。
无监督学习
无监督学习 (Unsupervised Learning) 处理无标签数据,目标是发现数据的隐藏结构、模式或分布。
核心任务
| 任务 | 目标 | 代表算法 | 优先级 |
|---|---|---|---|
| 聚类 | 将相似数据分组 | K-Means, FCM, DBSCAN | ⭐⭐⭐⭐⭐ |
| 降维 | 将高维数据映射到低维空间 | PCA, t-SNE, UMAP | ⭐⭐⭐⭐ |
| 异常检测 | 识别偏离正常模式的数据 | 孤立森林, LOF | ⭐⭐⭐ |
| 密度估计 | 估计数据的概率分布 | GMM, KDE | ⭐⭐⭐ |
| 生成模型 | 学习数据分布并生成新样本 | VAE, GAN | ⭐⭐⭐ |
无监督学习的详细内容(特别是聚类和降维)见无监督学习专题页面。
与模糊集的联系
无监督学习是模糊方法最早也是最成功的应用领域之一。传统 K-Means 要求每个数据点只属于一个聚类(硬聚类),而模糊 C 均值 (FCM) 允许数据点以不同程度属于多个聚类(软聚类),更符合现实中"边界模糊"的数据分布。
强化学习
强化学习 (Reinforcement Learning, RL) 与前两者有本质区别:没有"正确答案"标签,而是通过与环境交互获得奖励信号,学习一个最大化长期累积奖励的策略 。
基本框架
强化学习的核心是马尔可夫决策过程 (MDP):
在每个时间步,智能体观察当前状态 ,选择动作 ,环境返回下一状态 和即时奖励 。目标是学习策略 ,最大化累积折扣奖励:
其中 是折扣因子,控制对未来奖励的重视程度。
核心算法
| 类别 | 代表算法 | 核心思想 | 优先级 |
|---|---|---|---|
| 值函数方法 | Q-Learning, DQN | 学习状态(动作)的价值函数 | ⭐⭐⭐⭐⭐ |
| 策略梯度 | REINFORCE, PPO | 直接优化策略参数 | ⭐⭐⭐⭐ |
| Actor-Critic | A3C, SAC | 同时学习策略(Actor)和价值(Critic) | ⭐⭐⭐⭐ |
| 模型预测 | World Model, Dreamer | 学习环境模型用于规划 | ⭐⭐⭐ |
典型应用
强化学习在需要序列决策的问题中表现突出:游戏 AI(AlphaGo、Atari)、机器人控制、自动驾驶、推荐系统、大语言模型对齐(RLHF)。
范式的交叉与融合
三大范式并非完全独立,它们在多个方向上相互融合:
| 交叉方向 | 说明 |
|---|---|
| 半监督学习 | 少量标签 + 大量无标签数据,结合监督和无监督的优势 |
| 自监督学习 | 从数据本身构造"伪标签"(如掩码预测),不需要人工标注 |
| 模仿学习 | 从专家示范中学习策略,结合监督学习和强化学习思想 |
| 对比学习 | 学习区分"相似"和"不同"样本的表示,属于自监督学习的分支 |