聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 5295 views阅读

    层次聚类改进算法之BIRCH

    BIRCH算法简介 BIRCH算法的全称是Balanced Iterative Reducing and Clustering using Hierarchies,它使用聚类特征来表示一个簇,使用聚类特征树(CF-树)来表示聚类的层次结构,算法思路也是“自底向上”的。 BIRCH算法相比Agglomerative层级算法具有如下特点: 解决了Agglomerative算法不能撤销先前步骤...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 6361 views阅读

    层次聚类改进算法之CURE

    CURE(Clustering Using Representatives)是一种针对大型数据库的高效的聚类算法。基于层次的传统的聚类算法得到的是球状的,相等大小的聚类,对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法,可以较好的处理以上问题。并且在处理大数据量的时候采用了随机取样,分区的方法,来提高其效率,使得其可以高效的处理大量数据。先看一下基于层次聚类算法的缺陷: 如上图...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 10478 views阅读

    层次聚类改进算法之Chameleon

    Chameleon简介 Chameleon(变色龙)算法是一种两阶段层次聚类算法。在进行两个类簇合并时使用更高的标准,同时考虑了类簇之间的互连性(连接两个子簇的边的权重之和)和近似性(连接两个子簇的边的平均权重),具有发现任意形状和大小的簇的能力。算法的过程可分为两个阶段,第一阶段有数据集构造一个K近邻图$G_k$,再通过一个图划分算法将$G_k$划分成大量的子图,每个子图代表一个初始子簇...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 10918 views阅读

    聚类算法之Affinity Propagation(AP)

    Affinity Propagation算法简介 AP(Affinity Propagation)通常被翻译为近邻传播算法或者亲和力传播算法。AP算法的基本思想是将全部数据点都当作潜在的聚类中心(称之为exemplar),然后数据点两两之间连线构成一个网络(相似度矩阵),再通过网络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中心。 AP算...

    分类:技术文章 时间:2020-01-24 11:30 我要评论(0个)

  • 16121 views阅读

    计算机如何感知大数据——聚类算法

    看看下面这张图片。这是一个不同形状大小的昆虫的集合。花点时间按照相似程度将它们分成几组。 这不是什么很有技巧性的问题。 我们从把蜘蛛分到一起开始。 图片来自Google图片搜索,标记以便重用 做完了吗?虽然这里没有必要有所谓的正确答案,不过你极有可能将这些虫子分成四组。蜘蛛分成一组,蜗牛一组,蝴蝶和蛾子一族,黄蜂和蜜蜂总共三个一组。 不算太糟糕,是吧?如果虫子数量是这个的两倍你可能还...

    分类:技术文章 时间:2018-03-12 21:45 我要评论(0个)

  • 8366 views阅读

    算法杂货铺:k均值聚类(K-means)

    4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类...

    分类:技术文章 时间:2015-04-29 02:35 我要评论(0个)