跳至内容
机器学习

机器学习

机器学习 (Machine Learning) 是一类从数据中自动发现规律并做出预测或决策的方法。与传统编程"显式编写规则"不同,机器学习通过训练过程让模型从样本中学习规则——给定输入 xx 和期望输出 yy,学习一个映射函数 f:xyf: x \to y

专题页面

核心概念

机器学习的本质是一个优化问题:找到一组模型参数 θ\theta^*,使得在训练数据上的损失函数 LL 最小:

θ=argminθ1Ni=1NL(f(xi;θ),yi) \theta^* = \arg\min_\theta \frac{1}{N}\sum_{i=1}^{N} L(f(x_i; \theta), y_i)

围绕这个优化目标,有几个核心概念需要理解:

特征 (Feature) 是输入数据的属性或维度。例如在房价预测任务中,面积、楼层、位置都是特征。

特征的质量直接决定了模型的性能上限——好的特征比复杂的模型更重要。

标签 (Label) 是期望的输出值,也就是模型需要预测的目标。分类任务的标签是离散类别(如"垃圾邮件/正常邮件"),回归任务的标签是连续数值(如"房价 150 万")。有标签的数据是监督学习的前提。

损失函数 (Loss) 衡量模型预测值与真实值之间的差距。常用的损失函数有 MSE(均方误差,用于回归)和交叉熵(用于分类)。训练过程就是不断调整参数以最小化损失函数。

过拟合 (Overfitting) 是机器学习最核心的问题之一:模型在训练集上表现很好,但在从未见过的测试集上表现差——它记住了数据中的噪声而非真正的规律。对抗过拟合的手段包括正则化(L1/L2 惩罚项限制模型复杂度)、交叉验证(将数据分为多份轮流做训练和验证)、早停 (Early Stopping) 等。

数据通常按 7:1.5:1.58:1:1 划分为训练集、验证集和测试集。训练集用来学习参数,验证集用来选择超参数(如学习率、正则化系数),测试集用来评估最终性能。测试集在训练过程中绝对不能碰——否则就失去了评估泛化能力的意义。

经典算法概览

机器学习的经典算法可以分为几个大类。线性模型(线性回归、逻辑回归)是最基础的起点,简单但可解释性强,适合作为基线模型。树模型(决策树、随机森林、XGBoost)通过递归划分特征空间做预测,尤其擅长处理表格型数据,是竞赛和工业界的主力。SVM 通过寻找最大间隔超平面实现分类,配合核函数可以处理非线性问题,在小样本高维场景下仍有优势。

算法类别核心思想适用场景优先级
线性回归回归学习输入到输出的线性关系 y=wTx+by = w^T x + b连续值预测、基线模型⭐⭐⭐⭐⭐
逻辑回归分类Sigmoid 函数将线性输出映射为概率二分类、可解释性要求⭐⭐⭐⭐⭐
决策树分类/回归递归划分特征空间,形成树形结构可解释、处理混合类型特征⭐⭐⭐⭐
随机森林集成学习多棵决策树投票/平均,降低方差通用分类/回归,抗过拟合⭐⭐⭐⭐
SVM分类寻找最大间隔超平面,核函数处理非线性小样本高维数据⭐⭐⭐
XGBoost集成学习梯度提升框架,逐步拟合残差竞赛常胜、表格数据⭐⭐⭐⭐

模糊机器学习

模糊机器学习是模糊集理论与机器学习的交叉领域。传统机器学习处理的是精确的数值数据,但现实中大量信息是不精确、不确定或带有主观性的。模糊方法为机器学习引入了处理这类不确定性的能力,同时保持一定的可解释性。

在众多方向中,模糊聚类是最成熟的——FCM(模糊 C 均值)允许数据点以不同程度属于多个类别,比硬聚类更贴合现实,在无监督学习页面有详细介绍。模糊神经网络的代表是 ANFIS,它将模糊推理系统与神经网络的学习能力融合,详见模糊系统的系统类型模糊特征选择利用模糊互信息或模糊粗糙集来筛选重要特征,在高维数据分析中有独特优势。

方向说明代表方法优先级
模糊聚类允许数据点以不同程度属于多个类别FCM(模糊 C 均值)⭐⭐⭐⭐⭐
模糊神经网络将模糊推理嵌入神经网络结构ANFIS、自适应模糊系统⭐⭐⭐⭐
模糊特征选择用模糊互信息、模糊粗糙集选择特征模糊粗糙集约简⭐⭐⭐
模糊集成方法用模糊积分等聚合多模型输出Choquet 积分集成⭐⭐⭐
模糊深度学习在深度网络中引入模糊层或模糊损失新兴方向⭐⭐

学习路径

入门

先掌握线性回归和逻辑回归,理解"训练-评估"范式和损失函数优化。

经典方法

学习决策树、随机森林、SVM,理解偏差-方差权衡和模型选择。

学习范式

理解三大学习范式(监督、无监督、强化学习)的区别以及各自的适用场景。

深度学习

学习深度学习的基本架构(CNN、RNN、Transformer),了解无监督学习在聚类和降维中的应用。

融合方向

将模糊集理论与机器学习结合,探索模糊聚类、模糊特征选择等交叉方向。