机器学习 (4)——神经网络

本贴最后更新于 2235 天前,其中的信息可能已经事过景迁

0x00 神经网络

人工神经网络(Artificial Neural Network,缩写 ANN),简称神经网络(Neural Network,缩写 NN),是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。

0x01 神经元

一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫做“突触”。

人脑中神经元如图:

0x02 神经元的数学模型

神经元模型是一个包含输入,输出与计算功能的模型。输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比为细胞核。

每个连线上都会分配一个权值,在数据传向下一层的时候要乘以对应的权值。在神经网络中,每个箭头表示值的加权传递。

如果我们将神经元图中的所有变量用符号表示,并且写出输出的计算公式,就会得到:

z 是在输入和权值的线性加权和叠加了一个激活函数 g 的值。在 MP 模型里,函数 g 是 sgn 函数,也就是取符号函数。这个函数当输入大于 0 时,输出 1,否则输出-1。

接下来我们将 sum 函数与 sgn 函数合并到一个圆圈里,代表神经元的内部计算。其次,把输入 a 与输出 z 写到连接线的左上方,便于后面画复杂的网络。一个神经元可以引出多个代表输出的有向箭头,但值都是一样的。

在其他类型神经网络中,这里的激活函数可以有很多种形式:

  • 线性函数

  • 阈值函数

  • Sigmoid 函数

  • 对称 Sigmoid 函数

  • 双曲正切函数

  • 高斯函数

神经元可以看作一个计算与存储单元。计算是神经元对其的输入进行计算功能。存储是神经元会暂存计算结果,并传递到下一层。

一个神经网络的训练算法的功能就是通过大量的样本数据训练,让权重的值调整到最佳,以使得整个网络的预测效果最好。然后用来在已知所有输入值的情况下预测输出值。

0x03 单层神经网络(感知器)

感知器(Perceptron)由两层神经元组成的神经网络。两层分别是输入层和输出层,输入层只负责传输数据,输出层对前一层传输过来的数据进行计算。

结构如下:

其中,需要计算的层次也被称为计算层,因为感知器拥有一个计算层,所以称之为“单层神经网络”。

感知器中,我们把 w 称为权重向量,a 称为训练样本。

感知器数据分类的算法步骤如下:

把 w 初始化为 0,或者把 w 的每个分量初始化为[0, 1]之间的任意小数;

把训练样本 a 输入感知器,得到分类结果 z (-1 或 1);

根据分类结果更新权重向量。

权重更新算法:

wj=wj+∇wj

∇wj=η∗(z−z′)∗aj

其中

  • η 是学习率,在 [0,1] 之间。
  • z 是输入样本的正确分类,z’ 是感知器计算出来的分类。

假设初始 w=[0,0,0],a=[1,2,3],z=1,z’=-1 时,通过算法计算:

∇w0=0.3∗(1−(−1))∗x0=0.3∗2∗1=0.6

w0=w0+∇w0=0.6

∇w1=0.3∗(1−(−1))∗x1=0.3∗2∗2=1.2

w1=w1+∇w1=1.2

∇w2=0.3∗(1−(−1))∗x2=0.3∗2∗3=1.8

w2=w2+∇w2=1.8

得到更新后的 w=[0.6,1.2,1.8]

我们在输入大量样本时,每次在答案正确时不会更改,每次在答案错误时更新权值,只要取的学习率和样本量合适,就可以得到学习之后更为精准的算法。

我们可以看到,感知器类似一个逻辑回归模型,可以做线性分类任务。

我们可以用决策分界来形象的表达分类的效果。决策分界就是在二维的数据平面中划出一条直线,当数据的维度是 3 维的时候,就是划出一个平面,当数据的维度是 n 维时,就是划出一个 n-1 维的超平面。

0x04 两层神经网络(多层感知器)

两层神经网络也就是多了一层计算层(被称为隐藏层),在增加了这一层之后,神经网络就可以解决一些复杂的问题。

此时,权值矩阵增加到两个,计算层数分为隐藏层计算和输出层计算。

不过不同于单层的 sgn 函数,在两层神经网络中,我们使用的激活函数最多的是 sigmoid 函数。

隐藏层计算如图:

输出层计算如图:

总的计算公式:

g(W(1) * a(1)) = a(2);

g(W(2) * a(2)) = z;

与单层神经网络不同。理论证明,两层神经网络可以无限逼近任意连续函数。也就是说,面对复杂的非线性分类任务,两层(带一个隐藏层)神经网络可以分类的很好。

如下例,红色的线与蓝色的线代表数据。而红色区域和蓝色区域代表由神经网络划开的区域,两者的分界线就是决策分界。

0x05 多层神经网络

延续两层神经网络,在两层神经网络的输出层后面,继续添加层次。原来的输出层变成中间层,新加的层次成为新的输出层。我们这样依次添加,就会产生多层神经网络。

增加了层数,那么正向传播计算公式也会增加一步

g(W(1) * a(1)) = a(2);

g(W(2) * a(2)) = a(3);

g(W(3) * a(3)) = z;

再增加层数的话,与上面同理递推即可:

g(W(1) * a(1)) = a(2);

g(W(2) * a(2)) = a(3);

···

g(w(n-1) * a(n-1)) = a(n);

g(W(n) * a(n)) = z;

随着网络的层数增加,每一层对于前一层次的抽象表示更深入。代表着更深入的表示特征,以及更强的函数模拟能力。在参数数量一样的情况下,更深的网络往往具有比浅层的网络更好的识别效率。

相比于单层神经网络的 sgn 函数和双层神经网络的 sigmoid 函数,到了多层神经网络时,通过一系列的研究发现,ReLU 函数在训练多层神经网络时,更容易收敛,并且预测性能更好。

ReLU 函数不是传统的非线性函数,而是分段线性函数。其表达式非常简单,就是 y=max(x,0)。简而言之,在 x 大于 0,输出就是输入,而在 x 小于 0 时,输出就保持为 0。这种函数的设计启发来自于生物神经元对于激励的线性响应,以及当低于某个阈值后就不再响应的模拟。

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    729 引用 • 1327 回帖
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 611 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    90 引用 • 899 回帖
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 399 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 664 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    8 引用 • 30 回帖 • 407 关注
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 1 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 303 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    130 引用 • 793 回帖
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 742 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    198 引用 • 550 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 6 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    15 引用 • 122 回帖
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 5 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 211 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 53 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 62 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • 音乐

    你听到信仰的声音了么?

    60 引用 • 511 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    169 引用 • 506 回帖