机器学习
机器学习 (Machine Learning) 是一类从数据中自动发现规律并做出预测或决策的方法。与传统编程"显式编写规则"不同,机器学习通过训练过程让模型从样本中学习规则——给定输入 和期望输出 ,学习一个映射函数 。
专题页面
核心概念
机器学习的本质是一个优化问题:找到一组模型参数 ,使得在训练数据上的损失函数 最小:
围绕这个优化目标,有几个核心概念需要理解:
特征 (Feature) 是输入数据的属性或维度。例如在房价预测任务中,面积、楼层、位置都是特征。
标签 (Label) 是期望的输出值,也就是模型需要预测的目标。分类任务的标签是离散类别(如"垃圾邮件/正常邮件"),回归任务的标签是连续数值(如"房价 150 万")。有标签的数据是监督学习的前提。
损失函数 (Loss) 衡量模型预测值与真实值之间的差距。常用的损失函数有 MSE(均方误差,用于回归)和交叉熵(用于分类)。训练过程就是不断调整参数以最小化损失函数。
过拟合 (Overfitting) 是机器学习最核心的问题之一:模型在训练集上表现很好,但在从未见过的测试集上表现差——它记住了数据中的噪声而非真正的规律。对抗过拟合的手段包括正则化(L1/L2 惩罚项限制模型复杂度)、交叉验证(将数据分为多份轮流做训练和验证)、早停 (Early Stopping) 等。
数据通常按 7:1.5:1.5 或 8:1:1 划分为训练集、验证集和测试集。训练集用来学习参数,验证集用来选择超参数(如学习率、正则化系数),测试集用来评估最终性能。测试集在训练过程中绝对不能碰——否则就失去了评估泛化能力的意义。
经典算法概览
机器学习的经典算法可以分为几个大类。线性模型(线性回归、逻辑回归)是最基础的起点,简单但可解释性强,适合作为基线模型。树模型(决策树、随机森林、XGBoost)通过递归划分特征空间做预测,尤其擅长处理表格型数据,是竞赛和工业界的主力。SVM 通过寻找最大间隔超平面实现分类,配合核函数可以处理非线性问题,在小样本高维场景下仍有优势。
| 算法 | 类别 | 核心思想 | 适用场景 | 优先级 |
|---|---|---|---|---|
| 线性回归 | 回归 | 学习输入到输出的线性关系 | 连续值预测、基线模型 | ⭐⭐⭐⭐⭐ |
| 逻辑回归 | 分类 | Sigmoid 函数将线性输出映射为概率 | 二分类、可解释性要求 | ⭐⭐⭐⭐⭐ |
| 决策树 | 分类/回归 | 递归划分特征空间,形成树形结构 | 可解释、处理混合类型特征 | ⭐⭐⭐⭐ |
| 随机森林 | 集成学习 | 多棵决策树投票/平均,降低方差 | 通用分类/回归,抗过拟合 | ⭐⭐⭐⭐ |
| SVM | 分类 | 寻找最大间隔超平面,核函数处理非线性 | 小样本高维数据 | ⭐⭐⭐ |
| XGBoost | 集成学习 | 梯度提升框架,逐步拟合残差 | 竞赛常胜、表格数据 | ⭐⭐⭐⭐ |
模糊机器学习
模糊机器学习是模糊集理论与机器学习的交叉领域。传统机器学习处理的是精确的数值数据,但现实中大量信息是不精确、不确定或带有主观性的。模糊方法为机器学习引入了处理这类不确定性的能力,同时保持一定的可解释性。
在众多方向中,模糊聚类是最成熟的——FCM(模糊 C 均值)允许数据点以不同程度属于多个类别,比硬聚类更贴合现实,在无监督学习页面有详细介绍。模糊神经网络的代表是 ANFIS,它将模糊推理系统与神经网络的学习能力融合,详见模糊系统的系统类型。模糊特征选择利用模糊互信息或模糊粗糙集来筛选重要特征,在高维数据分析中有独特优势。
| 方向 | 说明 | 代表方法 | 优先级 |
|---|---|---|---|
| 模糊聚类 | 允许数据点以不同程度属于多个类别 | FCM(模糊 C 均值) | ⭐⭐⭐⭐⭐ |
| 模糊神经网络 | 将模糊推理嵌入神经网络结构 | ANFIS、自适应模糊系统 | ⭐⭐⭐⭐ |
| 模糊特征选择 | 用模糊互信息、模糊粗糙集选择特征 | 模糊粗糙集约简 | ⭐⭐⭐ |
| 模糊集成方法 | 用模糊积分等聚合多模型输出 | Choquet 积分集成 | ⭐⭐⭐ |
| 模糊深度学习 | 在深度网络中引入模糊层或模糊损失 | 新兴方向 | ⭐⭐ |