机器学习 (10)——贝叶斯分类

本贴最后更新于 2268 天前,其中的信息可能已经水流花落

0x00 贝叶斯分类

贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。

0x01 贝叶斯决策论

在分类任务中,我们不一定会得到明确的分类结果,而是得到可能被划分到每一种分类的概率。贝叶斯决策论就是用来决定出这个分类结果的方法。

贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优类别标记。

0x02 贝叶斯公式

贝叶斯公式:

其中

  • P(A|B) 是在 B 发生的情况下 A 发生的概率;
  • P(A) 是 A 发生的概率;
  • P(B|A) 是在 A 发生的情况下 B 发生的概率;
  • P(B) 是 B 发生的概率。

我们可以通过一个例子来解释这个公式,假设我们知道这几个概率:

  • 50% 的下雨天早上是多云
  • 但是多云天气很多(40% 的日子早上都是多云)
  • 这个月不怎么下雨(平均 30 天只有 3 天下雨,10% 的下雨几率)

然后,早晨起来发现天气是多云,怎么知道今天下雨的概率是多少?

我们在这里用 P(雨)代表下雨,P(云)代表多云,那么我们要求的事件就是:早晨多云的情况下下雨的概率是多少,也就是 P(雨 | 云)。

然后我们就可以套用在贝叶斯公式中:

P(雨 | 云)=P(云 | 雨)* P(雨)/ P(云)

而通过前面的条件已经知道,P(云 | 雨)=0.5,P(雨)=0.1,P(云)=0.4,那么我们就可以算出早晨多云的情况下下雨的概率是 0.5*0.1/0.4=0.125。只有 1/8 的概率下雨。

这是贝叶斯公式的一个简单应用,但在实际任务中我们的事件会更多更复杂,也就是说不会是单纯的 P(雨)、P(云)这么简单的单一事件,而是多个事件的联合概率,这个时候联合概率在样本不足的情况下无法直接计算,所以我们就引入了朴素贝叶斯分类方法。

0x03 朴素贝叶斯分类

也就是说朴素贝叶斯这一方法,是由于实际情况中,我们难以从有限的样本中直接获得在所有属性上的联合类条件概率而引出的,那么朴素贝叶斯方法是这样解决联合条件概率问题的:

朴素贝叶斯分类器对所有已知类别,假设所有属性相互独立。也就是说每个属性独立的对分类结果进行影响。

当所有属性都独立的时候,联合概率就变为了:

P(A,B)=P(A)*P(B)

这样我们就可以很轻易的使用已知样本中得到的单一概率来一步步算出所需的类条件概率 P(B|A)了。

此时,贝叶斯公式可写为:

其中 d 为属性数目,Bi 为 B 在第 i 个属性上的取值。

而对所有类别 P(B)相同,因此贝叶斯准则为:

这就是朴素贝叶斯分类器的表达式。

其中 arg 数学含义:

argument of the maximum/minimum

arg max f(x): 当 f(x)取最大值时,x 的取值

arg min f(x): 当 f(x)取最小值时,x 的取值

我们只需在训练过程中基于训练集来估计类先验概率 P(A),并为每个属性估计条件概率 P(Bi|A)即可。

然后我们就根据计算出来的概率大小来判断属于哪一类。

0x04 半朴素贝叶斯分类器

朴素贝叶斯分类使用条件独立性假设降低了后验概率计算的困难,但是这个假设是很难成立的,因为很多属性之间本来就具有很高的依赖性,所以就产生了一种“半朴素贝叶斯分类器”的方法来进行改善。

半朴素贝叶斯分类器的基本思想是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全的联合概率计算,又能保证不会忽略掉比较强的属性依赖关系。

其中最常用的策略是“独依赖统计(One Dependent Estimator)”,这种方法是假设每个属性在类别之外最多只依赖一个其他属性,这个属性被称为他的父属性。而如何确定这个父属性,现在有 SPODE(Super Parent ODE),TAN(Tree Augmented naive Bayes),AODE(Averaged One-Dependent Estimator)等方法。

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 759 关注
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖 • 2 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 485 关注
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    93 引用 • 901 回帖
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 609 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 399 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1708 回帖
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 648 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 393 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 655 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 5 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 32 回帖 • 2 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    181 引用 • 400 回帖
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 702 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    99 引用 • 367 回帖
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    366 引用 • 1842 回帖 • 1 关注
  • V2Ray
    1 引用 • 15 回帖 • 1 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    77 引用 • 389 回帖
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 408 回帖 • 484 关注
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    10 引用 • 76 回帖
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 8 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    7 引用 • 27 回帖
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 31 关注
  • danl
    164 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 638 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖