数据挖掘算法初窥门庭--分类/回归

本贴最后更新于 3436 天前,其中的信息可能已经水流花落

数据挖掘算法中分类和算法经常放在一起,如 weka 中 Classify 包括了分类和回归。这两种方法都是通过对已知类别训练集的分析,从中发现规律,以此预测新数据的类别。简单来说,若是预测的类别为离散值则成为分类,若为连续值则成为回归。
分类/回归属于有监督学习,分为训练和预测两个过程(当然一般还会有模型的检验)。

  • 训练:训练集-> 特征选取-> 训练-> 分类器模型
  • 预测:新样本-> 特征选取-> 分类-> 判决

#决策树
决策树归纳是经典的分类算法。
决策树是将特征的判别序列形成一颗树,从树根到叶子节点进行每个节点的判断,叶子节点处对应某个类别标号,就是最终的分类结果。
采用自顶向下递归的各个击破方式构造决策树。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。
主要的决策树算法有:ID3,C4.5,CHAID,CART,Quest 和 C5.0

  • 优点:
    • 模型易于理解和解释
    • 数据预处理阶段比较简单,可以处理缺失数据
    • 能够同时处理数值型和分类型数据
    • 能在相对短时间内对大数据集做出可行且效果良好的分类结果
  • 缺点:
    • 对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
    • 对噪声数据较为敏感
    • 容易出现过拟合问题
    • 忽略了数据集中属性之间的相关性

#KNN 算法
KNN 算法即 K-最临近算法,是一种最简单实用的算法。
该方法的思路非常简单直观:如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

  • 优点:
    • 简单有效,容易理解和实现
    • 重新训练的代价低
    • 计算时间和空间线性于训练集的规模
    • 适合处理多模分类和多标签分类问题
    • 对于类域的交叉或重叠较多的待分类样本集较为适合
  • 缺点:
    • 是 lazy 学习方法,比一些积极学习的算法要慢
    • 对样本不平衡的数据集效果不佳,可以采用加权投票法改进
    • k 值对分类效果影响很大,若 K 值太小会对噪声很敏感
    • 样本容量较小的类域采用这种算法比较容易产生误分

#SVM 算法
支持向量机,可以自动寻找出那些对分类有较好区分能力的支持向量,并寻找一个超平面,最大化类和类的间隔。

  • 优点:
    • 对小样本的分类有较好的结果
    • 可以解决高维问题
    • 可以提高泛化性能
    • 可以解决非线性问题
    • 可以避免神经网络结构选择和局部极小点问题
  • 缺点:
    • 对缺失数据敏感
    • 对非线性问题没有通用解决方案,必须谨慎选择核函数来处理

#贝叶斯分类
贝叶斯分类是利用贝叶斯公式,通过计算每个特征下分类的条件概率,来计算某个特征组合实例的分类概率,选取最大概率的分类作为分类结果。
参见的贝叶斯分类器有:Naive Bayes, TAN, BAN, GBN 等方法。

  • 优点:
    • 基于完善的数学模型,分类效果稳定
    • 所需估计的参数很少,对缺失数据不太敏感
    • 无需复杂的迭代求解框架,适用于规模巨大的数据集
  • 缺点:
    • 假设前提:属性之间独立性 往往不成立
    • 需要知道先验概率

#神经网络
神经网络是模拟人的神经反射功能,进行模型的自适应学习。通常分为输入层,输出层和中间层,通过反馈对各层的参数进行调整和优化。

  • 优点:
    • 分类准确性高,并行分布处理能力强
    • 对噪声有较强的鲁棒性和容错能力
    • 可以充分逼近非线性关系
    • 具备联想记忆能力
  • 缺点:
    • 需要输入大量参数
    • 不能观察学习过程,输出结果难以解释
    • 学习时间长

#AdaBoost 算法
提升方法是从弱学习算法出发,反复学习,得到一系列的弱分类器(即基本分类器),然后组合这些弱分类器,构成一个强分类器,大多数的提升方法都是改变训练数据集的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列的弱分类器。

  • 优点:
    • 分类精度高
    • 可以使用各种方法构建子分类器
    • 简单,且不需要做特征筛选
    • 不会过拟合
  • 缺点:
    • 对分类错误的样本多次被分错而多次加权后,导致权重过大,影响分类器的选择,造成退化问题
    • 数据不平衡问题导致分类精度的急剧下降
    • 算法训练耗时,拓展困难

#逻辑回归算法
二项 logistic 回归模型是一种分类模型,由条件概率分布 P(Y|X)表示,形式为参数化的 logistic 分布。这里随机变量 X 取值为实数,随机变量 Y 取值为 1 或 0。可以通过有监督的方法来估计模型参数。

  • 优点:
    • 计算代价不高
    • 易于理解和实现
    • 适用于数值型和分类型数据
  • 缺点:
    • 容易过拟合
    • 分类精度可能不高

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 34 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 165 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    173 引用 • 541 回帖
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    181 引用 • 400 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    85 引用 • 324 回帖 • 1 关注
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 6 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    326 引用 • 1395 回帖
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3203 引用 • 8217 回帖
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 6 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    22 引用 • 148 回帖 • 16 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    346 引用 • 760 回帖
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 668 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 65 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 183 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 181 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    32 引用 • 100 回帖
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖
  • Access
    1 引用 • 3 回帖 • 3 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 49 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    4 引用 • 16 回帖 • 201 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    36 引用 • 200 回帖 • 42 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 688 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    89 引用 • 150 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 259 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 2 关注