粒球聚类
粒球聚类是粒球计算最基础、最直观的应用方向。它将经典的聚类算法从"点对点"计算升级为"球对球"计算,在保持聚类质量的同时大幅降低计算成本。
粒球 K-Means
粒球 K-Means 是最经典的粒球聚类算法,也是入门粒球计算最推荐的起点。它的核心思路是:先将原始数据点聚合为粒球,再对粒球执行 K-Means 聚类。
与传统 K-Means 对 个数据点迭代计算不同,粒球 K-Means 只需对 个粒球迭代()。每个粒球自身的中心和半径已经编码了内部数据的统计信息,聚类时只需比较粒球中心之间的距离。
| 步骤 | 传统 K-Means | 粒球 K-Means |
|---|---|---|
| 输入 | 个数据点 | 个粒球() |
| 距离计算 | 点与中心的距离 | 粒球中心与聚类中心 |
| 复杂度 | ||
| 抗噪能力 | 易受噪声点影响 | 噪声被粒球结构平均 |
其中 为簇数, 为迭代次数。
层次粒球聚类
层次粒球聚类采用自顶向下或自底向上的策略构建粒球层次结构。自顶向下时,从整个数据集作为一个大粒球开始,不断分裂直到满足纯度要求;自底向上时,从最细粒度的粒球开始,逐步合并相似的粒球。
层次结构的优势是可以在不同粒度层次上观察聚类结果——粗粒度给出整体结构概览,细粒度揭示局部细节。
与模糊聚类的结合
粒球聚类可以与模糊 C 均值 (FCM) 结合——先生成粒球,再对粒球进行模糊聚类。每个粒球以不同隶属度属于多个簇,保留了更丰富的结构信息。这种结合特别适合簇间边界模糊的数据。
| 算法 | 核心特点 | 优先级 |
|---|---|---|
| 粒球 K-Means | 最基础,最容易实现和理解 | ⭐⭐⭐⭐⭐ |
| 层次粒球聚类 | 支持多粒度分析 | ⭐⭐⭐ |
| 粒球 FCM | 与模糊聚类结合,保留软聚类信息 | ⭐⭐⭐ |
| 粒球密度聚类 | 与 DBSCAN 类似思路结合粒球 | ⭐⭐ |