无监督学习

无监督学习 (Unsupervised Learning) 面对的是没有标签的原始数据，目标是发现数据中的隐藏结构和模式。它是数据分析的基础，在探索性分析、数据预处理和特征学习中扮演核心角色。

聚类

聚类 (Clustering) 将数据点按相似性分组。理想的聚类结果是组内相似度高、组间相似度低。

K-Means 是最经典的聚类算法。给定 $K$ 个簇的数量，通过迭代两步来最小化簇内平方和：

J = \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2

随机选择 $K$ 个数据点作为初始聚类中心 $\mu_1, \mu_2, \dots, \mu_K$ 。

将每个数据点分配到距离最近的聚类中心： $C_k = \{x_i : \|x_i - \mu_k\| \leq \|x_i - \mu_j\|, \forall j\}$ 。

重新计算每个簇的中心： $\mu_k = \frac{1}{|C_k|}\sum_{x_i \in C_k} x_i$ 。

重复分配和更新步骤，直到中心不再变化或达到最大迭代次数。

K-Means 简单高效，但有几个局限：必须预先指定 $K$ ；对初始化敏感（可用 K-Means++ 缓解）；只能发现凸形簇；每个数据点只能属于一个簇（硬聚类）。

FCM (Fuzzy C-Means) 是 K-Means 的模糊扩展，也是模糊集理论在机器学习中最经典的应用。FCM 允许每个数据点以不同的隶属度属于多个簇：

J_m = \sum_{i=1}^{N}\sum_{k=1}^{C} u_{ik}^m \|x_i - c_k\|^2

其中 $u_{ik} \in [0,1]$ 是数据点 $x_i$ 对簇 $k$ 的隶属度， $m > 1$ 是模糊指数（通常取 2），控制聚类的模糊程度。 $m$ 越大，聚类越"柔软"（隶属度越均匀）； $m \to 1$ 时退化为硬聚类。

隶属度和中心的更新公式：

u_{ik} = \frac{1}{\sum_{j=1}^{C}\left(\frac{\|x_i - c_k\|}{\|x_i - c_j\|}\right)^{\frac{2}{m-1}}} \qquad c_k = \frac{\sum_{i=1}^{N} u_{ik}^m \cdot x_i}{\sum_{i=1}^{N} u_{ik}^m}

FCM 相比 K-Means 的优势：

在决策支持系统中，FCM 常用于将评价值聚类以辅助决策；在粒球计算中，可以用模糊聚类构建更灵活的粒结构。

DBSCAN (Density-Based Spatial Clustering) 基于密度发现聚类，不需要预先指定簇的数量。它定义两个参数：邻域半径 $\varepsilon$ 和最小点数 MinPts。

核心概念：

DBSCAN 的独特优势是能发现任意形状的簇（不限于凸形），并且自动识别噪声点。缺点是对参数 $\varepsilon$ 和 MinPts 敏感，在密度不均匀的数据上效果不佳。

降维 (Dimensionality Reduction) 将高维数据映射到低维空间，用于数据可视化、噪声去除和特征提取。

PCA 通过正交变换找到数据方差最大的方向（主成分），将数据投影到这些方向上：

Z = XW

其中 $W$ 的列是数据协方差矩阵的特征向量（按特征值从大到小排列）。保留前 $k$ 个主成分即可实现降维，保留的方差比例 = $\sum_{i=1}^k \lambda_i / \sum_{i=1}^d \lambda_i$ 。

PCA 是线性方法，计算高效，适合大部分"降维+去噪"需求。

t-SNE 和 UMAP 是非线性降维方法，主要用于高维数据的二维可视化：

方法	核心思想	优势	局限	优先级
t-SNE	保持局部邻域的概率分布	可视化效果好，保留局部结构	速度慢，不保持全局距离	⭐⭐⭐⭐
UMAP	基于拓扑结构保持	速度快，保留全局+局部结构	参数选择影响结果	⭐⭐⭐⭐

无监督学习的另一个重要方向是生成模型——学习数据的概率分布 $P(x)$ ，并根据这个分布生成新的样本。

GMM 可以看作聚类方法的概率版本——每个高斯分量对应一个簇，数据点属于各簇的后验概率类似于 FCM 的隶属度。