聚类算法:常用类型介绍

日期: 栏目:大数据算法 阅读:0
聚类算法:常用类型介绍

聚类算法是机器学习中应用技术,目的是以最小化损耗函数为近似代价,把数据集划分为相互独立的群组,以实现相同特征的数据归类。一般来说,聚类算法可分为基于层次聚类和基于距离矩阵聚类。

基于层次聚类通常需要输入一个特征矩阵,层次聚类将以某种划分方式将数据划分为多个类,通常可采用常用的划分方式,如凝聚层次聚类(AgglomerativeClustering)和分裂层次聚类(DivisiveClustering)。凝聚层次聚类以合并数据为基础,每次将拥有最近距离的两个节点合并起来形成新节点,直到满足对应的标准即可。而分裂层次聚类则以分裂数据为基础,它每次将每个节点分裂为两个节点,直到满足指定的条件为止。

另一方面,基于距离矩阵聚类需要指定聚类的数目,然后将每个数据与各类中心的距离计算出来,依据参数调整来更新每个类中心的位置。根据数据不同,可以选择 K-均值(K-means)聚类、高斯混合聚类(GaussianMixture)和层次聚类(HierarchicalClustering)等常用聚类算法来完成基于距离矩阵聚类。

总之,聚类算法是机器学习中一项重要的数据预处理技术,属于无监督学习的范畴,主要运用于客户分群、数据可视化、营销和决策分析等领域,根据数据的不同特性可以采用基于层次聚类进行分类或者采用基于距离矩阵聚类等方式来完成聚类的过程。

标签: