跳至内容

粒球聚类

粒球聚类是粒球计算最基础、最直观的应用方向。它将经典的聚类算法从"点对点"计算升级为"球对球"计算,在保持聚类质量的同时大幅降低计算成本。

粒球 K-Means

粒球 K-Means 是最经典的粒球聚类算法,也是入门粒球计算最推荐的起点。它的核心思路是:先将原始数据点聚合为粒球,再对粒球执行 K-Means 聚类。

与传统 K-Means 对 nn 个数据点迭代计算不同,粒球 K-Means 只需对 mm 个粒球迭代(mnm \ll n)。每个粒球自身的中心和半径已经编码了内部数据的统计信息,聚类时只需比较粒球中心之间的距离。

步骤传统 K-Means粒球 K-Means
输入nn 个数据点mm 个粒球(mnm \ll n
距离计算点与中心的距离粒球中心与聚类中心
复杂度O(nKT)O(n \cdot K \cdot T)O(mKT)O(m \cdot K \cdot T)
抗噪能力易受噪声点影响噪声被粒球结构平均

其中 KK 为簇数,TT 为迭代次数。

层次粒球聚类

层次粒球聚类采用自顶向下或自底向上的策略构建粒球层次结构。自顶向下时,从整个数据集作为一个大粒球开始,不断分裂直到满足纯度要求;自底向上时,从最细粒度的粒球开始,逐步合并相似的粒球。

层次结构的优势是可以在不同粒度层次上观察聚类结果——粗粒度给出整体结构概览,细粒度揭示局部细节。

与模糊聚类的结合

粒球聚类可以与模糊 C 均值 (FCM) 结合——先生成粒球,再对粒球进行模糊聚类。每个粒球以不同隶属度属于多个簇,保留了更丰富的结构信息。这种结合特别适合簇间边界模糊的数据。

算法核心特点优先级
粒球 K-Means最基础,最容易实现和理解⭐⭐⭐⭐⭐
层次粒球聚类支持多粒度分析⭐⭐⭐
粒球 FCM与模糊聚类结合,保留软聚类信息⭐⭐⭐
粒球密度聚类与 DBSCAN 类似思路结合粒球⭐⭐