无监督学习
无监督学习 (Unsupervised Learning) 面对的是没有标签的原始数据,目标是发现数据中的隐藏结构和模式。它是数据分析的基础,在探索性分析、数据预处理和特征学习中扮演核心角色。
聚类
聚类 (Clustering) 将数据点按相似性分组。理想的聚类结果是组内相似度高、组间相似度低。
K-Means
K-Means 是最经典的聚类算法。给定 个簇的数量,通过迭代两步来最小化簇内平方和:
K-Means 简单高效,但有几个局限:必须预先指定 ;对初始化敏感(可用 K-Means++ 缓解);只能发现凸形簇;每个数据点只能属于一个簇(硬聚类)。
模糊 C 均值 (FCM)
FCM (Fuzzy C-Means) 是 K-Means 的模糊扩展,也是模糊集理论在机器学习中最经典的应用。FCM 允许每个数据点以不同的隶属度属于多个簇:
其中 是数据点 对簇 的隶属度, 是模糊指数(通常取 2),控制聚类的模糊程度。 越大,聚类越"柔软"(隶属度越均匀); 时退化为硬聚类。
隶属度和中心的更新公式:
FCM 相比 K-Means 的优势:
- 更真实地反映数据的归属——边界上的点不被强行划分
- 隶属度提供了数据归属的置信度信息
- 对噪声数据更鲁棒(异常点的隶属度被分散到多个簇)
在决策支持系统中,FCM 常用于将评价值聚类以辅助决策;在粒球计算中,可以用模糊聚类构建更灵活的粒结构。
DBSCAN
DBSCAN (Density-Based Spatial Clustering) 基于密度发现聚类,不需要预先指定簇的数量。它定义两个参数:邻域半径 和最小点数 MinPts。
核心概念:
- 核心点:-邻域内有至少 MinPts 个点
- 边界点:不是核心点,但在某个核心点的 -邻域内
- 噪声点:既不是核心点也不是边界点
DBSCAN 的独特优势是能发现任意形状的簇(不限于凸形),并且自动识别噪声点。缺点是对参数 和 MinPts 敏感,在密度不均匀的数据上效果不佳。
降维
降维 (Dimensionality Reduction) 将高维数据映射到低维空间,用于数据可视化、噪声去除和特征提取。
PCA (主成分分析)
PCA 通过正交变换找到数据方差最大的方向(主成分),将数据投影到这些方向上:
其中 的列是数据协方差矩阵的特征向量(按特征值从大到小排列)。保留前 个主成分即可实现降维,保留的方差比例 = 。
PCA 是线性方法,计算高效,适合大部分"降维+去噪"需求。
t-SNE 与 UMAP
t-SNE 和 UMAP 是非线性降维方法,主要用于高维数据的二维可视化:
| 方法 | 核心思想 | 优势 | 局限 | 优先级 |
|---|---|---|---|---|
| t-SNE | 保持局部邻域的概率分布 | 可视化效果好,保留局部结构 | 速度慢,不保持全局距离 | ⭐⭐⭐⭐ |
| UMAP | 基于拓扑结构保持 | 速度快,保留全局+局部结构 | 参数选择影响结果 | ⭐⭐⭐⭐ |
生成模型
无监督学习的另一个重要方向是生成模型——学习数据的概率分布 ,并根据这个分布生成新的样本。
| 模型 | 核心思想 | 应用 | 优先级 |
|---|---|---|---|
| 高斯混合模型 (GMM) | 假设数据由多个高斯分布混合生成 | 软聚类、密度估计 | ⭐⭐⭐⭐ |
| 变分自编码器 (VAE) | 编码器-解码器 + 隐变量空间的正则化 | 图像生成、数据增强 | ⭐⭐⭐ |
| 生成对抗网络 (GAN) | 生成器与判别器对抗训练 | 图像合成、数据增强 | ⭐⭐⭐ |
GMM 可以看作聚类方法的概率版本——每个高斯分量对应一个簇,数据点属于各簇的后验概率类似于 FCM 的隶属度。