常用的聚类算法介绍

日期: 栏目:大数据算法 阅读:0
常用的聚类算法介绍

聚类是机器学习领域中非常重要的一个任务,是由无监督学习衍生出来的分类任务,其目标是将样本划分为数个聚类,使得每一个聚类内的样本具有一致性,而不同聚类之间的样本存在显著差异。现在常用的聚类算法主要包括:K均值算法、层次聚类(HC)、该量聚类算法(DBSCAN)、基于密度的聚类算法(OPTICS)。

K均值算法是聚类的最简单也是最经典的算法,目标是将样本库划分为K个聚类,使得每一类的样本质心尽可能的接近,而不同聚类的样本质心尽可能的远离,它最后的聚类结果很大程度上取决于初始化聚类中心,该算法收敛速度较快。

层次聚类(HC)通过使用距离度量方法,将相似性高的样本结合起来,聚合成一个聚类,得到一个聚类树,最后从聚类树中挑选出作为最终的结果。其收敛速度较慢,但是由于不用指定聚类个数,而且聚类结果可视化,得到的结果更加直观。

该量聚类算法(DBSCAN)是另一类常用的聚类算法,它通过定义一个邻域,来根据样本的密度进行聚类,能够自动对簇数量进行划分,但局限性在于,它不能处理不同密度的聚类结果,容易漏掉一些数据。

基于密度的聚类算法(OPTICS)是基于DBSCAN而改进的算法,它首先根据样本的密度生成了一个树结构,然后利用正则化的方法对此树结构进行划分,从而得出最终的结果。OPTICS能够有效地处理非凸形的聚类结果,其结果可视化,可检测聚类中心及聚类过程。

总而言之,以上常用的聚类算法具有较好的应用场景和效果,根据自身的需要,应该有效的选择一种或者多种聚类算法进行处理。

标签: