机器学习涉及的数学知识

最近，易用的机器学习和深度学习工具包急剧增加，比如 scikit-learn、Weka、Tensorflow、R-caret 等。机器学习理论是一个涵盖统计、概率、计算机科学和算法方面的领域，该理论的初衷是以迭代方式从数据中学习，找到可用于构建智能应用程序的隐藏洞察。尽管机器学习和深度学习有巨大的发展潜力，但要深入掌握算法的内部工作原理并获得良好的结果，就必须透彻地了解许多技术的数学原理。

为什么担忧数学？

出于许多原因，机器学习的数学原理很重要，下面重点介绍部分原因：

选择正确的算法，这涉及到考虑准确率、训练时间、模型复杂性、参数数量和特征数量。
选择参数设置和验证策略。
通过理解偏差-方差权衡，识别欠拟合和过拟合。
估算正确的置信区间和不确定性。

您需要多高的数学知识水平？


   在尝试理解诸如机器学习这样的跨学科领域时，需要考虑的主要问题是，理解这些技术需要多大的数学知识量和多高的数学知识水平。此问题的答案涉及多个维度，而且取决于个人的知识水平和兴趣。对机器学习的数学公式和理论发展的研究从未间断过，一些研究人员正在研究更高级的技术。我将介绍我认为成为机器学习科学家/工程师所需的最低数学知识水平，以及每个数学概念的重要性。

线性代数：同事 Skyler Speakman 最近说“线性代数是 21 世纪的数学”，我完全同意这种说法。在机器学习中，线性代数无处不在。要理解用于机器学习的优化方法，需要掌握许多主题，比如主成份分析 (PCA)、奇异值分解 (SVD)、矩阵特征分解、LU 分解、QR 分解/因式分解、对称矩阵、正交化/标准正交化、矩阵运算、投影、特征值和特征矢量、矢量空间，以及范数。关于线性代数，令人惊奇的是网上有如此多的资源。我总是说，由于互联网上存在大量资源，传统的课堂教学正在消亡。我最喜欢 MIT Courseware（Gilbert Strang 教授）提供的线性代数课。
概率论和统计学：机器学习与统计学并不是完全不同的领域。实际上，有人最近将机器学习定义为‘在 Mac 上实践统计学’。机器学习需要的一些基本的统计和概率理论包括组合学、概率规则和公理、贝叶斯定理、随机变量、方差和预期、条件和联合分布、标准分布（伯努利、二项式、多项式、均匀和高斯分布）、矩母函数、最大似然估计 (MLE)、先验和后验、最大后验概率估计 (MAP)，以及采样方法。
多变量微积分：一些必要的主题包括微积分、偏微分、矢量-值函数、方向梯度、海赛函数、雅可比行列式、拉普拉斯算子和拉格朗日分布。
算法和复杂优化：这对理解机器学习算法的计算效率和可伸缩性，以及利用数据集的稀疏性都很重要。需要数据结构（二叉树、哈希运算、堆、堆栈等）、动态编程、随机化和次线性算法、图表、梯度/随机下降，以及原对偶方法的知识。
其他：包括上述 4 个主要领域未涵盖的其他数学主题。这些主题包括实数和复数分析（集合和数列、拓扑、度量空间、单值和连续函数、极限、柯西核、傅里叶变换），信息论（熵、信息增益），函数空间和数集。

一些研究机器学习中需要的部分数学主题的在线 MOOC 和材料包括：

Khan Academy 的线性代数、概率论和统计学、多变量微积分，以及优化。
矩阵编码：线性代数在计算机科学中的应用，由布朗大学的 Philip Klein 提供。
线性代数 - 前沿科学的基础，由德克萨斯大学的 Robert van de Geijn 提供。
线性代数应用，第 1 部分和第 2 部分。戴维森学院 Tim Chartier 开设的一门新课。
Joseph Blitzstein - 哈佛大学统计学 110 讲稿。
Larry Wasserman 的著作 - 统计学完全教程：统计推断简明课程。
Boyd 和 Vandenberghe 在斯坦福大学的凸优化课程。
edX 上的“线性代数 - 前沿科学的基础”。
Udacity 的统计学介绍。

小样本学习 · Few-shot Learning，FSL

待完成的视频：论文解读合集：【CVPR 2021】小样本学习论文解读 | Few-Shot Classification with Feature Map..._哔哩哔哩_bilibili 王树森：Few-Shot Learning (1/3): 基本概念 (youtube.com) 概述描述 FSL旨在解决在训练 ..

机器学习 -KNN 算法原理 && Spark 实现

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

机器学习算法之 KMeans 聚类算法

一、K-Means 聚类算法原理 1. 算法思想物以类聚，人以群分。 K-Means：一种常见的无监督学习算法，名字叫做 K 均值算法。是否为监督学习：只需要看输入的数据是否有标签。 K-Means 聚类算法是一种迭代求解的聚类分析算法。算法思想是：我们需要随机选择 K 个对象作为初始的聚类中心，然后计算每个对 ..

机器学习基础算法原理

很早以前写的，担心以后会丢失，故在此备份。字不好请见谅。一、模型评估和选择这一章主要是讲对于数据的操作，应当如何增加数据来进行评估，以及评估方法如 macro/micro F1 score、ROC、AUC 等。 [图片] [图片] 二、线性模型基础线性回归的算法，进阶有如拉格朗日插值法、牛顿插值法、勒让德多项式、 ..

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

添加微信：julyedukefu14，回复【11】领取最新升级版【名企 AI 面试 100 题】 1、请详细说说支持向量机（support vector machine，SVM）的原理支持向量机，因其英文名为 support vector machine，故一般简称 SVM，通俗来讲，它是一种二类分类模型，其基本模型 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

机器学习涉及的数学知识

相关帖子

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

欢迎来到这里！

近期热议

推荐标签标签

最新标签

机器学习涉及的数学知识

相关帖子

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

机器学习算法之 KMeans 聚类算法

矩池云上安装 NVCaffe 教程

矩池云上 nvidia opencl 安装及测试教程

机器学习基础算法原理

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签