数据挖掘算法初窥门庭--分类/回归

本贴最后更新于 3390 天前,其中的信息可能已经水流花落

数据挖掘算法中分类和算法经常放在一起,如 weka 中 Classify 包括了分类和回归。这两种方法都是通过对已知类别训练集的分析,从中发现规律,以此预测新数据的类别。简单来说,若是预测的类别为离散值则成为分类,若为连续值则成为回归。
分类/回归属于有监督学习,分为训练和预测两个过程(当然一般还会有模型的检验)。

  • 训练:训练集-> 特征选取-> 训练-> 分类器模型
  • 预测:新样本-> 特征选取-> 分类-> 判决

#决策树
决策树归纳是经典的分类算法。
决策树是将特征的判别序列形成一颗树,从树根到叶子节点进行每个节点的判断,叶子节点处对应某个类别标号,就是最终的分类结果。
采用自顶向下递归的各个击破方式构造决策树。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。
主要的决策树算法有:ID3,C4.5,CHAID,CART,Quest 和 C5.0

  • 优点:
    • 模型易于理解和解释
    • 数据预处理阶段比较简单,可以处理缺失数据
    • 能够同时处理数值型和分类型数据
    • 能在相对短时间内对大数据集做出可行且效果良好的分类结果
  • 缺点:
    • 对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
    • 对噪声数据较为敏感
    • 容易出现过拟合问题
    • 忽略了数据集中属性之间的相关性

#KNN 算法
KNN 算法即 K-最临近算法,是一种最简单实用的算法。
该方法的思路非常简单直观:如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

  • 优点:
    • 简单有效,容易理解和实现
    • 重新训练的代价低
    • 计算时间和空间线性于训练集的规模
    • 适合处理多模分类和多标签分类问题
    • 对于类域的交叉或重叠较多的待分类样本集较为适合
  • 缺点:
    • 是 lazy 学习方法,比一些积极学习的算法要慢
    • 对样本不平衡的数据集效果不佳,可以采用加权投票法改进
    • k 值对分类效果影响很大,若 K 值太小会对噪声很敏感
    • 样本容量较小的类域采用这种算法比较容易产生误分

#SVM 算法
支持向量机,可以自动寻找出那些对分类有较好区分能力的支持向量,并寻找一个超平面,最大化类和类的间隔。

  • 优点:
    • 对小样本的分类有较好的结果
    • 可以解决高维问题
    • 可以提高泛化性能
    • 可以解决非线性问题
    • 可以避免神经网络结构选择和局部极小点问题
  • 缺点:
    • 对缺失数据敏感
    • 对非线性问题没有通用解决方案,必须谨慎选择核函数来处理

#贝叶斯分类
贝叶斯分类是利用贝叶斯公式,通过计算每个特征下分类的条件概率,来计算某个特征组合实例的分类概率,选取最大概率的分类作为分类结果。
参见的贝叶斯分类器有:Naive Bayes, TAN, BAN, GBN 等方法。

  • 优点:
    • 基于完善的数学模型,分类效果稳定
    • 所需估计的参数很少,对缺失数据不太敏感
    • 无需复杂的迭代求解框架,适用于规模巨大的数据集
  • 缺点:
    • 假设前提:属性之间独立性 往往不成立
    • 需要知道先验概率

#神经网络
神经网络是模拟人的神经反射功能,进行模型的自适应学习。通常分为输入层,输出层和中间层,通过反馈对各层的参数进行调整和优化。

  • 优点:
    • 分类准确性高,并行分布处理能力强
    • 对噪声有较强的鲁棒性和容错能力
    • 可以充分逼近非线性关系
    • 具备联想记忆能力
  • 缺点:
    • 需要输入大量参数
    • 不能观察学习过程,输出结果难以解释
    • 学习时间长

#AdaBoost 算法
提升方法是从弱学习算法出发,反复学习,得到一系列的弱分类器(即基本分类器),然后组合这些弱分类器,构成一个强分类器,大多数的提升方法都是改变训练数据集的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列的弱分类器。

  • 优点:
    • 分类精度高
    • 可以使用各种方法构建子分类器
    • 简单,且不需要做特征筛选
    • 不会过拟合
  • 缺点:
    • 对分类错误的样本多次被分错而多次加权后,导致权重过大,影响分类器的选择,造成退化问题
    • 数据不平衡问题导致分类精度的急剧下降
    • 算法训练耗时,拓展困难

#逻辑回归算法
二项 logistic 回归模型是一种分类模型,由条件概率分布 P(Y|X)表示,形式为参数化的 logistic 分布。这里随机变量 X 取值为实数,随机变量 Y 取值为 1 或 0。可以通过有监督的方法来估计模型参数。

  • 优点:
    • 计算代价不高
    • 易于理解和实现
    • 适用于数值型和分类型数据
  • 缺点:
    • 容易过拟合
    • 分类精度可能不高

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    4 引用 • 7 回帖 • 3 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    12 引用 • 5 回帖 • 634 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 3 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    60 引用 • 29 回帖 • 8 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 189 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 818 回帖 • 1 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    7 引用 • 28 回帖 • 2 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 413 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    17 引用 • 7 回帖
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 738 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    167 引用 • 597 回帖 • 1 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    315 引用 • 547 回帖
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖 • 3 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 405 关注
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 126 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    46 引用 • 114 回帖 • 168 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 3 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3201 引用 • 8217 回帖 • 1 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 1 关注
  • 创业

    你比 99% 的人都优秀么?

    82 引用 • 1395 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 403 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26103 引用 • 108380 回帖
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • Outlook
    1 引用 • 5 回帖 • 4 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖 • 2 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 694 关注