机器学习 (3)——逻辑回归

本贴最后更新于 2018 天前,其中的信息可能已经时移世改

0x00 逻辑回归(Logistic Regression)

逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。

Logistic 回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)

回归模型中,y 是一个定性变量,比如 y=0 或 1,logistic 方法主要应用于研究某些事件发生的概率。

0x01 逻辑回归模型

它的核心思想是,如果线性回归的结果输出是一个连续值,而值的范围是无法限定的,那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。而如果输出结果是 (0,1) 的一个概率值,这个问题就很清楚了。

在数学上有 sigmoid 函数可以帮助我们实现这一思想。

sigmoid 函数表达式:

二元逻辑回归时,将 t 换成 ax+b,可以得到二元逻辑回归模型的参数形式:

sigmoid 函数图形:

其中,如果是二元回归时,我们 P(x)的值可以理解为某一分类概率的大小,如果 P(x)值为 0.6,代表输出为 1 的概率是 60%,补集部分是输出为 0 的概率 40%。

此时 P(x)的值越小,而分类为 0 的的概率越高,反之,值越大的话分类为 1 的的概率越高。如果靠近临界点即靠近 0.6 时,分类准确率会下降。

0x02 决策边界(decision boundary)

决策边界就是能够把样本正确分类的一条边界,从图像上可以直观的看到

如线性决策边界:

非线性决策边界:

在上面二元逻辑回归的例子中,我们用 y 表示输出的离散值 0 或 1,写为函数形式为:

然后我们逻辑函数 g 要做到,在输入大于等于零时,输出大于等于 0.6;在输入小于零时,输出小于等于 0.6。即:

决策边界是假设函数的属性,由参数决定,而不是由数据集的特征决定。

0x03 成本函数(Cost Function)

线性回归中也说过成本函数,也叫代价函数,在逻辑回归中,我们也需要定义成本函数对其取值的好坏进行评估。

而逻辑回归如果取用和线性回归一样的方式计算成本函数,那么图形是“非凸”的。

这样就会产生很多个局部最小值,无法使用梯度下降算法。所以我们需要一个新的成本函数。

在逻辑回归中,损失函数是用来估计预测值(y^(i))与期望输出值(y(i))之间的差异。

统计学习中常用的损失函数有以下几种:

(1) 0-1 损失函数(0-1 loss function):

(2) 平方损失函数(quadratic loss function)

(3) 绝对损失函数(absolute loss function)

(4) 对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likelihood loss function)

损失函数越小,模型就越好。

所以在逻辑回归中,为了保证全局收敛,我们采用对数似然损失函数。

也就是说,如下两个情况:

如果是正确答案为 y=1 的情况:

当 y=1, 则 Cost=0,也就是预测的值和真实的值完全相等的时候成本为 0;但是如果 y=0,Cost 接近无穷大,也就是说此时成本会非常大。

如果是正确答案为 y=0 的情况:

当 y=0, 则 Cost=0,也就是预测的值和真实的值完全相等的时候成本为 0;但是如果 y=1,Cost 接近无穷大,也就是说此时成本会非常大。

0x04 简化成本函数

在上面式子中,由于 y 只能等于 0 或 1,所以可以将逻辑回归中的 Cost function 的两个公式合并可以将我们的成本函数的两个条件案例压缩成一个案例:

当 y 等于 1 时,第二项(1-y)log(1- hθ(x))将为零,并且不会影响结果。如果 y 等于 0,则所述第一术语-ylog(1-hθ(X))将为零,且不会影响结果。

所以最终整个逻辑回归的成本函数如下:

0x05 梯度下降

与线性回归相似,这里我们同样采用梯度下降算法来学习参数

迭代函数

算法就是迭代这个公式每次更新参数值,上篇已经详细说过

0x06 优化(Advanced Optimization)

优化算法除了梯度下降算法外,还包括:

  • Conjugate gradient method(共轭梯度法)
  • Quasi-Newton method(拟牛顿法)
  • BFGS method
  • L-BFGS(Limited-memory BFGS)

后二者由拟牛顿法引申出来,与梯度下降算法相比,这些算法的优点是:

  • 1.不需要手动的选择步长
  • 2.通常比梯度下降算法快

因为算法太过复杂,我们不需要手动编写代码,只需要在库中调用相关的函数即可。

0x07 多分类问题(Multiclass Classification: One-vs-all)

我们大多时候遇到的分类并不止两类,这个时候就产生了多分类问题。

首先,二分类问题时候图形如下:

那么多分类问题的图形就如下:

对于多分类问题,我们可以将其先看成二分类问题,保留一类之后剩余的划作另一类。

对上面的三类问题,我们需要三次划分,如图:

最终的 One-vs-all 方法:

  • 对于每一个类 i 训练一个逻辑回归模型的分类器,并且预测 y = i 时的概率。
  • 对于一个新的输入变量 x,分别对每一个类进行预测,取概率最大的那个类作为分类结果。

也就是说,如果输入一个 x,此时分类器 A 概率为 0.3,分类器 B 概率为 0.4,分类器 C 概率为 0.5,那么他就属于 C 这个分类。

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    76 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 455 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    124 引用 • 580 回帖
  • 电影

    这是一个不能说的秘密。

    120 引用 • 597 回帖 • 1 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 18 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    395 引用 • 3408 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 2 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 4 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    207 引用 • 2031 回帖
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 593 关注
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    1 引用 • 11 回帖 • 1 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 229 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    5 引用 • 26 回帖 • 492 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 37 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 5 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 420 关注
  • 音乐

    你听到信仰的声音了么?

    59 引用 • 509 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 4 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 422 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 19 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    185 引用 • 318 回帖 • 348 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 681 关注
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    103 引用 • 126 回帖 • 452 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 440 关注
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    228 引用 • 1450 回帖
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    531 引用 • 3528 回帖