六、TensorFlow 图像识别

“人工智能，深度学习，机器学习————如果您不了解它，无论您在做什么————都要学习。否则，您将在 3 年内成为恐龙。”

————马克·库班

这是涵盖流行行业用例的一系列示例应用的第一章，并且我从与机器学习有关的用例开始，也不是巧合，尤其是通过图像识别示例应用进行深度学习。在过去的几年中，我们看到在人工智能（AI）领域加速发展，以至于许多实际应用正在成为现实，例如，自动驾驶汽车以及具有先进的自动语音识别功能的聊天机器人，在某些任务上完全可以代替人工操作，而从学术界到工业界的越来越多的人开始涉足其中。但是，人们认为入门成本非常高，并且掌握机器学习的基本数学概念是先决条件。在本章中，我们试图通过使用示例来证明事实并非如此。

我们将在本章开始时对机器学习进行快速介绍，并将其子集称为深度学习。然后，我们将介绍一个非常流行的深度学习框架，称为 TensorFlow，我们将使用它来构建图像识别模型。在本章的第二部分中，我们将展示如何通过实现示例 PixieApp 来操作已构建的模型，该示例使用户可以输入网站链接，抓取所有图像并将其用作对它们进行分类的模型的输入。

在本章的最后，您应该确信无需博士学位即可构建有意义的应用并使它们可操作。在机器学习中。

什么是机器学习？

我认为一个很好的定义可以很好地抓住机器学习背后的直觉，这是斯坦福大学兼职教授 Andrew Ng 在 Coursera 的“机器学习”课程中：

机器学习是一门无需明确编程即可让计算机学习的科学。

前面定义中的关键词是学习，在这种情况下，其含义与人类学习方式非常相似。为了继续进行类似的工作，从很小的时候开始，我们就被教会了如何以身作则或通过反复试验来完成一项任务。广义上讲，机器学习算法可以分为两种类型，分别对应于人类学习的两种方式：

监督：算法从已正确标记的示例数据中学习。该数据也称为训练数据，或有时称为基本事实。
无监督：算法能够自行从尚未标记的数据中学习。

对于此处描述的两种类别，下表概述了最常用的机器学习算法及其解决的问题类型：

机器学习算法列表

这些算法的输出称为模型，用于对以前从未见过的新输入数据进行预测。构建和部署这些模型的整个端到端过程在不同类型的算法中非常一致。

下图显示了此过程的高级工作流程：

机器学习模型工作流程

与往常一样，工作流从数据开始。在监督学习的情况下，数据将用作示例，因此必须正确标记正确答案。然后处理输入数据以提取称为特征的内在属性，我们可以将其视为代表输入数据的数值。随后，将这些特征输入构建模型的机器学习算法中。在典型设置中，原始数据分为训练数据，测试数据和盲数据。在模型构建阶段，将使用测试数据和盲数据来验证和优化模型，以确保其不会过拟合训练数据。当模型参数过于紧随训练数据时会发生过拟合，从而在使用看不见的数据时导致错误。当模型产生所需的精度水平时，然后将其部署到生产中，并根据主机应用的需要将其用于新数据。

在本节中，我们将通过简化的数据流水线工作流程对机器学习进行非常高级的介绍，仅足以直观地说明如何构建和部署模型。再一次，如果您是初学者，我强烈推荐在 Coursera 上使用 Andrew Ng 的《机器学习》课程（我仍然会不时地复习）。在下一节中，我们将介绍称为深度学习的机器学习分支，我们将使用它来构建图像识别样本应用。

什么是深度学习？

使计算机学习，推理和思考（做出决定）是一门被普遍称为认知计算的科学，其中机器学习和深度学习是其中的重要部分。以下维恩图显示了这些字段与 AI 的总体字段的关系：

深度学习如何适应 AI

如图所示，深度学习是机器学习算法的一种。也许尚未广为人知的是，深度学习领域已经存在了很长一段时间，但是直到最近才真正被广泛使用。兴趣的重新点燃归因于过去几年中观察到的计算机，云和存储技术的非凡进步，随着许多新的深度学习算法的开发推动了 AI 的指数增长，每种算法都最适合解决特定问题。

正如我们将在本章稍后讨论一样，深度学习算法特别擅长学习复杂的非线性假设。他们的设计实际上受到人脑工作方式的启发，例如，输入数据流经多层计算单元，以便将复杂的模型表示形式（例如图像）分解为更简单的模型表示形式，然后再将结果返回到下一层，依此类推，以此类推，直到到达负责输出结果的最后一层。这些层的组装也称为神经网络，而组成一层的计算单元称为神经元。本质上，神经元负责获取多个输入并将其转换为单个输出，然后可以将其输入到下一层的其他神经元中。

下图表示用于图像分类的多层神经网络：

用于图像分类的神经网络的高级表示

前面的神经网络也称为前馈，因为每个计算单元的输出都用作从输入层开始的下一层的输入。中间层称为隐藏层，其中包含网络自动学习的中间功能。在我们的图像示例中，某些神经元可能负责检测角，而其他可能关注边缘。最终输出层负责为每个输出类分配一个置信度（得分）。

一个重要的问题是神经元的输出如何从其输入生成？在不深入研究所涉及的数学的情况下，每个人工神经元对其输入的加权总和应用激活函数g(x)以决定是否应触发。

以下公式计算加权和：

其中θ^i是i和i + 1层之间的权重矩阵。这些权重是在训练阶段计算出来的，稍后我们将简要讨论。

注意

注意：上式中的偏差表示偏差神经元的权重，它是添加到 x 值为 +1 的每一层的额外神经元。偏向神经元是特殊的，因为它有助于下一层的输入，但它没有连接到上一层。但是，通常仍然像其他神经元一样学习其权重。偏向神经元背后的直觉是，它在线性回归方程中提供了常数项 b：

当然，在A上应用神经元激活函数g(x)不能简单地产生二进制（0 或 1）值，因为如果存在多个类的得分为 1，我们将无法正确地排列最终候选答案。相反，我们使用激活函数，该函数提供介于 0 和 1 之间的非离散得分，并设置阈值（例如 0.5）来决定是否激活神经元。

Sigmoid 函数是最受欢迎的激活函数之一：

下图显示了如何使用 Sigmoid 激活函数根据其输入及其权重来计算神经元输出：

使用 Sigmoid 函数计算神经元输出

其他流行的激活函数包括双曲正切tanh(x)和整流线性单元（ReLu）：max(x, 0)。 ReLu 在有很多层时效果更好，因为可以激发神经元的稀疏性，从而降低噪音并加快学习速度。

在模型评分期间使用前馈传播，但是在训练神经网络的权重矩阵时，使用的一种流行方法称为反向传播。

以下高级步骤描述了训练的工作方式：

随机初始化权重矩阵（最好使用较小的值，例如-ε, ε）。
使用所有训练示例上所述的前向传播，使用您选择的激活函数来计算每个神经元的输出。
为您的神经网络实现成本函数。 成本函数量化了有关训练示例的误差。反向传播算法可以使用多种成本函数，例如均方误差和交叉熵。
使用反向传播可以最小化成本函数并计算权重矩阵。反向传播背后的想法是从输出层的激活值开始，计算与训练数据有关的误差，然后将其误差传回隐藏层。然后调整这些误差以最小化步骤 3 中实现的成本函数。

注意

注：详细解释这些成本函数以及如何对其进行优化超出了本书的范围。对于更深层次的探讨，我强烈建议您阅读 MIT 出版社（Ian Goodfellow，Yoshua Bengio 和 Aaron Courville）的《深度学习》书。

在本节中，我们已高层讨论了神经网络如何工作以及如何进行训练。当然，我们只是触及了这项令人兴奋的技术的表面，但是希望您应该对它们的工作原理有所了解。在下一部分中，我们将开始研究 TensorFlow，这是一个编程框架，可帮助抽象实现神经网络的底层复杂性。

TensorFlow 入门

除了 TensorFlow 之外，我还可以为该示例应用选择多个开源深度学习框架。

最受欢迎的一些框架如下：

PyTorch
Caffee2
MXNet
Keras：一种高级神经网络抽象 API，能够运行其他深度学习框架，例如 TensorFlow，CNTK 和 Theano

TensorFlow API 有多种语言可用：Python，C++，Java，Go，以及最近的 JavaScript。我们可以区分以下两类 API：高级别和低级别，如下图所示：

TensorFlow 高级 API 架构

为了使 TensorFlow API 成为，让我们构建一个简单的神经网络来学习 XOR 转换。

提醒一下，XOR 运算符只有四个训练示例：

`X`	`Y`	结果
0	0	0
0	1	1
1	0	1
1	1	0

有趣的是，线性分类器无法学习 XOR 转换。但是，我们可以通过一个简单的神经网络来解决此问题，该神经网络的输入层中包含两个神经元，一个隐藏层中包含两个神经元，而输出层中包含一个神经元（二分类），如下所示：

XOR 神经网络

注意

注意：您可以使用以下命令直接从笔记本计算机安装 TensorFlow：

!pip install tensorflow

与往常一样，在成功安装后不要忘记重新启动内核。

要创建输入和输出层张量，我们使用tf.placeholder API，如以下代码所示：

import tensorflow as tf
x_input = tf.placeholder(tf.float32)
y_output = tf.placeholder(tf.float32)

然后，我们使用tf.Variable API 初始化矩阵θ[1]的随机值，而θ[2]对应于隐藏层和输出层：

eps = 0.01
W1 = tf.Variable(tf.random_uniform([2,2], -eps, eps))
W2 = tf.Variable(tf.random_uniform([2,1], -eps, eps))

对于激活函数，我们使用 Sigmoid 函数：

注意

注意：为简单起见，我们忽略引入偏差。

layer1 = tf.sigmoid(tf.matmul(x_input, W1))
output_layer = tf.sigmoid(tf.matmul(layer1, W2))

对于成本函数，我们使用 MSE（均方误差的缩写）：

cost = tf.reduce_mean(tf.square(y_output - output_layer))

将所有张量放置在图中后，我们现在可以通过使用0.05的学习率使用tf.train.GradientDescentOptimizer来进行训练，以最小化我们的成本函数：

train = tf.train.GradientDescentOptimizer(0.05).minimize(cost)
training_data = ([[0,0],[0,1],[1,0],[1,1]], [[0],[1],[1],[0]])
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for i in range(5000):
        sess.run(train,
            feed_dict={x_input: training_data[0], y_output: training_data[1]})

Collapse file tree

Files

06.md

Latest commit

History

06.md

File metadata and controls

六、TensorFlow 图像识别

什么是机器学习？

什么是深度学习？

注意

注意

TensorFlow 入门

注意

注意

注意

使用DNNClassifier的简单分类

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

图像识别示例应用

注意

第 1 部分——加载预训练的 MobileNet 模型

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

第 2 部分——为我们的图像识别示例应用创建 PixieApp

注意

注意

注意

注意

注意

注意

注意

第 3 部分——集成 TensorBoard 图可视化

注意

注意

注意

注意

第 4 部分——使用自定义训练数据重新训练模型

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

注意

总结

使用`DNNClassifier`的简单分类