数据挖掘算法初窥门庭--聚类

本贴最后更新于 3316 天前,其中的信息可能已经斗转星移

#聚类(Cluster)
##概念
什么是聚类:
按照个体或样品的特征将它们分类,使同一类别的个体具有尽可能高的同质性,而类别之间则应该具有尽可能高的异质性。
聚类的特点:
不是一种统计方法,而是数据处理技术;需要自定聚类变量以及类别个数,属于非监督的分析方法;一般不涉及有关统计量的分布;不需要进行显著性检验;聚类算法比距离算法对结果影响更大;样本的顺序会影响聚类的结果。
一些重要概念:

  • 聚类变量:一组表示个体特征的变量。完全由研究者规定,会对结果产生较大的影响。需要需要对变量进行标准化处理。
  • 类别个数:聚类结果类别的个数。完全由研究者规定,不管实际数据中是否存在不同的类别吗,都能得到若干类别的解。
  • 个体同质程度:有两种方式进行测量
    • 采用描述个体之间的接近程度指标(数量),如“距离”:欧式距离、 曼哈顿距离等
    • 采用描述铬铁之间的相似程度指标(模式),如“相关系数”:皮尔逊相关系数

##快速聚类和两阶段聚类
根据聚类算法的处理过程可以分为:快速聚类和两阶段聚类。

  • 快速聚类:
    • 思想:
      选取 k 个观测量作为初始聚类中心,以距离最小原则将样本分配到 k 个类中,在每个类中以一定的方法重新选举聚类中心。不断迭代,直到收敛或满足要求。
    • 特点:
      一般只能处理数值型的变量;噪声对结果影响比较大;强线性关系变量会导致重复贡献影响结果。
  • 两阶段聚类:
    • 思想:
      将聚类分为预聚类(类数目增加)和聚类(类数目减少)两个阶段,类似于,构造一棵树,从根向上不断生长出更多的分支,然后对树进行修剪,把小的分支处理掉,合并留下的大分支。
    • 特点:
      可以处理数值型和分类型的变量;自动确定最优聚类数目;诊断离群点和噪声数据;可缩放性强。

##常见算法
根据算法思想可以把聚类算法分为下列类型。下面我们简单学习各种算法的思想,特点,优缺点等。具体算法在实践中再进行具体的学习。

###划分算法
思想:划分算法属于快速聚类的方法。

1.选取 k 个观测量作为初始聚类中心
2.以距离最小原则将每个实例分配到 k 个类中
3.在每个类中以一定的方法重新选举聚类中心
4.不断迭代,直到收敛或满足要求

  • k-means 算法

    • 特点:初始类中心选取是任意的,类中心的再选举采用类中所有对象的均值。
    • 优点:算法简单,也是最常用的聚类算法;对大数据是可伸缩的且效率高,时间复杂度接近于线性。
    • 缺点:初始值的选取会对结果产生较大的影响;对脏数据很敏感;只能处理数值类型数据
  • k-medoids 算法

    • 特点:是对 K-MEANS 算法的改进,类中心(medoids)的再选举采用的是选取到类中其他点距离之和最小的点。
    • 优点:对脏数据不敏感
    • 缺点:选取类中心计算量大,一般只能用于小数据集
  • clara 算法

    • 特点:是 k-medoids 效率不好的解决方案,在选举类中心时,使用抽样数据代替整个数据集
    • 优点:提高选举类中心的效率
    • 缺点:效率取决于采样的大小,采样大小决定了聚类的结果,一般不太可能得到最佳结果
  • clarans

    • 特点:是对 clara 的改进:clara 在选举类中心时是用的采用是不变的,clarans 算法在没一次迭代使用的采样都是不一样的。
    • 优点:解决 clara 算法无法得到最佳结果的问题
    • 缺点:必须人为限定迭代次数。
k-means 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据
k-modes K-Means算法的扩展,能够处理分类数据,采用简单匹配方法来度量分类型数据的相似度
k-prototypes 结合了K-Means和K-Modes两种算法,能够处理混合型数据
k-medoids 在迭代过程中选择簇中到其他点距离之和最小的点为中心,PAM是典型的k-medoids算法
CLARA CLARA算法在PAM的基础上采用了抽样技术,能够处理大规模数据
CLARANS CLARANS算法融合了PAM和CLARA两者的优点,是第一个用于空间数据库的聚类算法, 该算法适用于处理数值型数据

###层次算法
层次聚类方法是对给定数据集进行层次分解明知道某种条件满足为止。具体可以分为凝聚和分裂两种方案。

  • 凝聚:自底向上,首先每个对象作为一簇,然后合并这些原子簇,知道某个条件被满足。
  • 分裂:自顶向下,首先将所有的对象置于同一个簇,然后逐渐分裂为更小的簇,直到某个条件被满足。
CURE 采用抽样技术先对数据集随机抽取样本,再采用分区技术对样本进行分区,然后对每个分区局部聚类,最后对局部聚类进行全局聚类。适合处理数值型数据类型
ROCK 也采用了随机抽样技术,该算法在计算两个对象的相似度时,同时考虑了周围对象的影响,适合处理混合型数据类型
CHEMALOEN(变色龙算法) 首先由数据集构造成一个K-最近邻图Gk ,再通过一个图的划分算法将图Gk 划分成大量的子图,每个子图代表一个初始子簇,最后用一个凝聚的层次聚类算法反复合并子簇,找到真正的结果簇
SBAC SBAC算法则在计算对象间相似度时,考虑了属性特征对于体现对象本质的重要程度,对于更能体现对象本质的属性赋予较高的权值
BIRCH BIRCH算法利用树结构对数据集进行处理,叶结点存储一个聚类,用中心和半径表示,顺序处理每一个对象,并把它划分到距离最近的结点,该算法也可以作为其他聚类算法的预处理过程。适合处理数值型数据类型
BUBBLE BUBBLE算法则把BIRCH算法的中心和半径概念推广到普通的距离空间
BUBBLE-FM BUBBLE-FM算法通过减少距离的计算次数,提高了BUBBLE算法的效率

###密度算法
基于距离的算法只能发现“类圆形”的聚类,基于密度的算法克服了这个缺点。
密度算法的知道思想是,当一个区域中的点的密度大于某个阈值,就把它加入到与之相近的聚类中去。

DBSCAN 采用空间索引技术来搜索对象的邻域,引入了“核心对象”和“密度可达”等概念,从核心对象出发,把所有密度可达的对象组成一个簇,适合处理数值型数据类型
GDBSCAN 算法通过泛化DBSCAN算法中邻域的概念,以适应空间对象的特点
OPTICS OPTICS算法结合了聚类的自动性和交互性,先生成聚类的次序,可以对不同的聚类设置不同的参数,来得到用户满意的结果
FDC FDC算法通过构造k-d tree把整个数据空间划分成若干个矩形空间,当空间维数较少时可以大大提高DBSCAN的效率

###网格算法
基于网格的算法先将数据空间划分为有限个单元的网格结构,所有的处理都是以单个的单元为对象。网格算法的特点是处理速度很快,通常于单元个数有关而与记录个数无关。

STING 利用网格单元保存数据统计信息,从而实现多分辨率的聚类
WaveCluster 在聚类分析中引入了小波变换的原理,主要应用于信号处理领域。只能处理数值型数据类型
CLIQUE 是一种结合了网格和密度的聚类算法,适合处理数值型数据类型

###模型算法
基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好满足这个模型的数据集。这种算法的潜在假定是:目标数据集是由一系列的概率分布决定的。

AutoClass 是以概率混合模型为基础,利用属性的概率分布来描述聚类,该方法能够处理混合型的数据,但要求各属性相互独立
自组织神经网络SOM 由外界输入不同的样本到人工的自组织映射网络中,一开始时,输入样本引起输出兴奋细胞的位置各不相同,但自组织后会形成一些细胞群,它们分别代表了输入样本,反映了输入样本的特征

###weka 中的聚类算法

  • EM,用户可指定需要产生多少聚类,否则所用的算法可通过交叉验证来决定,用户可指定循环次数的最大值,并且为正常的密度计算设定可允许的最小标准差。

  • SimpleKMeans 使用 k 均值来聚类数据;聚类的数量通过一个参数设定。

  • Cobweb 实现了用于名词属性的 Cobweb 算法和用于数值性属性的 Classit 算法。

  • FarthestFirst 实现 Hochbaum 和 Shmoys 远端优先遍历算法。

  • MakeDensityBaseCluster 是一个元聚类器,它包装一个聚类算法,使其返回一个概率分布和密度。它为每个聚类拟合一个离散分布,或一个对称的正态分布。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • ss via macOS

    @88250 这个给老大看看不错,老大的那个分类方法最终实现离不开这些东东呢。既然是学 java 的,不知到有没有把 scala 和 spark 一块学了?

  • 其他回帖
  • 88250

    @ss 木。

推荐标签 标签

  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 648 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    556 引用 • 675 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    9567 引用 • 43550 回帖 • 98 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 316 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    78 引用 • 396 回帖
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    31 引用 • 97 回帖
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    151 引用 • 257 回帖
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    63 引用 • 289 回帖 • 1 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖 • 1 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 666 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 668 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 100 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 147 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 487 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 119 关注
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 702 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 3 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 1 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    133 引用 • 1124 回帖 • 117 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 786 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    189 引用 • 1057 回帖 • 3 关注
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    89 引用 • 122 回帖 • 619 关注
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    335 引用 • 324 回帖
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    36 引用 • 37 回帖 • 544 关注
  • V2Ray
    1 引用 • 15 回帖