跳至内容

无监督学习

无监督学习 (Unsupervised Learning) 面对的是没有标签的原始数据,目标是发现数据中的隐藏结构和模式。它是数据分析的基础,在探索性分析、数据预处理和特征学习中扮演核心角色。

聚类

聚类 (Clustering) 将数据点按相似性分组。理想的聚类结果是组内相似度高、组间相似度低。

K-Means

K-Means 是最经典的聚类算法。给定 KK 个簇的数量,通过迭代两步来最小化簇内平方和:

J=k=1KxiCkxiμk2 J = \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2

初始化

随机选择 KK 个数据点作为初始聚类中心 μ1,μ2,,μK\mu_1, \mu_2, \dots, \mu_K

分配

将每个数据点分配到距离最近的聚类中心:Ck={xi:xiμkxiμj,j}C_k = \{x_i : \|x_i - \mu_k\| \leq \|x_i - \mu_j\|, \forall j\}

更新

重新计算每个簇的中心:μk=1CkxiCkxi\mu_k = \frac{1}{|C_k|}\sum_{x_i \in C_k} x_i

迭代

重复分配和更新步骤,直到中心不再变化或达到最大迭代次数。

K-Means 简单高效,但有几个局限:必须预先指定 KK;对初始化敏感(可用 K-Means++ 缓解);只能发现凸形簇;每个数据点只能属于一个簇(硬聚类)。

模糊 C 均值 (FCM)

FCM (Fuzzy C-Means) 是 K-Means 的模糊扩展,也是模糊集理论在机器学习中最经典的应用。FCM 允许每个数据点以不同的隶属度属于多个簇:

Jm=i=1Nk=1Cuikmxick2 J_m = \sum_{i=1}^{N}\sum_{k=1}^{C} u_{ik}^m \|x_i - c_k\|^2

其中 uik[0,1]u_{ik} \in [0,1] 是数据点 xix_i 对簇 kk 的隶属度,m>1m > 1模糊指数(通常取 2),控制聚类的模糊程度。mm 越大,聚类越"柔软"(隶属度越均匀);m1m \to 1 时退化为硬聚类。

隶属度和中心的更新公式

uik=1j=1C(xickxicj)2m1ck=i=1Nuikmxii=1Nuikm u_{ik} = \frac{1}{\sum_{j=1}^{C}\left(\frac{\|x_i - c_k\|}{\|x_i - c_j\|}\right)^{\frac{2}{m-1}}} \qquad c_k = \frac{\sum_{i=1}^{N} u_{ik}^m \cdot x_i}{\sum_{i=1}^{N} u_{ik}^m}

FCM 相比 K-Means 的优势

  • 更真实地反映数据的归属——边界上的点不被强行划分
  • 隶属度提供了数据归属的置信度信息
  • 对噪声数据更鲁棒(异常点的隶属度被分散到多个簇)

决策支持系统中,FCM 常用于将评价值聚类以辅助决策;在粒球计算中,可以用模糊聚类构建更灵活的粒结构。

DBSCAN

DBSCAN (Density-Based Spatial Clustering) 基于密度发现聚类,不需要预先指定簇的数量。它定义两个参数:邻域半径 ε\varepsilon 和最小点数 MinPts。

核心概念:

  • 核心点ε\varepsilon-邻域内有至少 MinPts 个点
  • 边界点:不是核心点,但在某个核心点的 ε\varepsilon-邻域内
  • 噪声点:既不是核心点也不是边界点

DBSCAN 的独特优势是能发现任意形状的簇(不限于凸形),并且自动识别噪声点。缺点是对参数 ε\varepsilon 和 MinPts 敏感,在密度不均匀的数据上效果不佳。

降维

降维 (Dimensionality Reduction) 将高维数据映射到低维空间,用于数据可视化、噪声去除和特征提取。

PCA (主成分分析)

PCA 通过正交变换找到数据方差最大的方向(主成分),将数据投影到这些方向上:

Z=XW Z = XW

其中 WW 的列是数据协方差矩阵的特征向量(按特征值从大到小排列)。保留前 kk 个主成分即可实现降维,保留的方差比例 = i=1kλi/i=1dλi\sum_{i=1}^k \lambda_i / \sum_{i=1}^d \lambda_i

PCA 是线性方法,计算高效,适合大部分"降维+去噪"需求。

t-SNE 与 UMAP

t-SNEUMAP 是非线性降维方法,主要用于高维数据的二维可视化

方法核心思想优势局限优先级
t-SNE保持局部邻域的概率分布可视化效果好,保留局部结构速度慢,不保持全局距离⭐⭐⭐⭐
UMAP基于拓扑结构保持速度快,保留全局+局部结构参数选择影响结果⭐⭐⭐⭐

生成模型

无监督学习的另一个重要方向是生成模型——学习数据的概率分布 P(x)P(x),并根据这个分布生成新的样本。

模型核心思想应用优先级
高斯混合模型 (GMM)假设数据由多个高斯分布混合生成软聚类、密度估计⭐⭐⭐⭐
变分自编码器 (VAE)编码器-解码器 + 隐变量空间的正则化图像生成、数据增强⭐⭐⭐
生成对抗网络 (GAN)生成器与判别器对抗训练图像合成、数据增强⭐⭐⭐

GMM 可以看作聚类方法的概率版本——每个高斯分量对应一个簇,数据点属于各簇的后验概率类似于 FCM 的隶属度。