机器学习 (2)——线性回归

0x00 前言

第一篇记录了机器学习的定义、分类和范围，这一篇开始从机器学习的方法学起，总结机器学习的经典方法，然后尽量自己写代码实现。

0x01 回归算法

回归算法属于机器学习中监督学习类的算法，是入门机器学习最基础的算法。

回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些技术应用于预测，时间序列模型和找到变量之间关系。

回归算法就是量化因变量受自变量影响的大小，建立线性回归方程或者非线性回归方程，从而达对因变量的预测，或者对因变量的解释作用。

0x02 回归分析流程

① 探索性分析，画不同变量之间的散点图，进行相关性检验等，了解数据的大致情况，以及得知重点关注那几个变量；

② 变量和模型选择；

③ 回归分析假设条件验证；

④ 共线性和强影响点检查；

⑤ 模型修改，并且重复 ③④；

⑥ 模型验证。

0x03 回归算法分类

回归算法主要通过三种方法分类：自变量的个数、因变量的类型和回归线的形状。

常见的回归算法有：

线性回归
逻辑回归
多项式回归
逐步回归
岭回归
Lasso 回归
ElasticNet 回归

0x04 线性回归(Linear Regression)

线性回归是世界上最知名的建模方法之一，在线性回归模型中，因变量是连续型的，自变量可以使连续型或离散型的，回归线是线性的。

线性回归用最适直线(回归线)去建立因变量 Y 和一个或多个自变量 X 之间的关系。可以用公式来表示：

Y=A+B*X+e

A 为截距，B 为回归线的斜率，e 是误差项。

简单线性回归与多元线性回归的差别在于：多元线性回归有多个(>1)自变量，而简单线性回归只有一个自变量。

简单线性回归

我们首先实现一个只有单一自变量的简单线性回归

我们实现这个算法，可以先以 Andrew Ng 机器学习讲义中美国俄亥俄州 Portland Oregon 城市房屋价格为例：

这个例子中近简化使用房屋面积一个因子作为自变量，y 轴对应其因变量房屋价格。所以我们机器学习的线性回归就变为对于给定有限的数据集，进行一元线性回归，即找到一个一次函数 y=y(x) + e，使得 y 满足

当 x={2104, 1600, 2400, 1416, 3000, … }, y={400, 330, 369, 232, 540, … }
面积(feet²) 价格(1000$)
2104 400
1600 330
2400 369
1416 232
3000 540
··· ···
对这个问题我们先给出假设函数即需要拟合的直线：

其中 a 和 b 是我们要求得的参数，参数得变化会引起函数的变化。

而我们解出参数之后的函数是否为最优解，我们需要引入一个概念：Cost Function，即代价函数或成本函数。

代价函数(Cost Function)

在回归问题中，衡量最优解的常用代价函数为平方误差。

平方误差在高中和大学的概率论、统计学等课程中我们都有所了解，就是用样本数据和拟合出的线做差值，然后对差值进行平方和并除以点数 m 计算平均值。

而在这里，我们要导出代价函数，额外除以 1/2 做数学简化，形成以下代价函数：

ps：这里额外除以 1/2，是为了之后平方函数的微分项将抵消 1/2 项，以方便计算梯度下降。

下来我们求解最优解的问题就转变为了求解代价函数的最小值。

其中 J 是基于 θ 的函数，我们可以先将其简化成只有 θ1 的函数，令 θ0=0.

然后我们不断给定 θ1 的值，基于样本值进行计算代价函数 J，就可以得到一个 θ1 和 J 的函数，并在某一点取得极小值。

如样本数据为 y ={(1,1), (2,2),(3,3)}时，可以得到如下的 J-θ1 图形：

我们求解线性回归最优解的方法一般是梯度下降法和最小二乘法

最小二乘法

代价函数中使用的均方误差，其实对应了我们常用的欧几里得的距离（欧式距离，Euclidean Distance）, 基于均方误差最小化进行模型求解的方法称为“最小二乘法”（least square method），即通过最小化误差的平方和寻找数据的最佳函数匹配。

当函数子变量为一维时，最小二乘法就蜕变成寻找一条直线。

如我们上例中的模型，寻找 J 极小值就是分别用 J 对 θ1 和 θ0 求偏导，然后寻找偏导为零的点。

解得：

局限性

最小二乘法算法简单，容易理解，而然在现实机器学习却有其局限性：

并非所有函数都可以求出驻点，即导数为 0 的点，f(x)=0
求解方程困难，或求根公式复杂
导数并无解析解
最小二乘法的矩阵公式,计算一个矩阵的逆是相当耗费时间的, 而且求逆也会存在数值不稳定的情况

梯度下降法

正是由于在实际中，最小二乘法遇到的困难和局限性，尤其是多数超定方程组不存在解，我们由求导转向迭代逼近。也就是梯度下降算法。

首先我们了解一下什么是梯度，这在复变函数等大学课程中都曾经学过。

方向导数

方向导数即研究在某一点的任意方向的变化率，是偏导数的广义扩展。

梯度

梯度则基于方向导数，是一个向量而非数，梯度代表了各个方向导数中，变化趋势最大的那个方向。

那么，梯度方向就是增长最快的方向，负梯度方向就是减小最快的方向。

梯度下降算法

梯度下降算法通常也被称作最速下降法。其目的是找到一个局部极小值点；其目标与最小二乘法相同，都是使得估算值与实际值的总平方差尽量小。

其方法是采用计算数学的迭代法，先给定一初始点，然后向下降最快的方向调整，在若干次迭代之后找到局部最小。

比如我们给定上面的方程，初始参数是 θ0,θ1，我们不断改变 θ0,θ1 从而减少 J(θ0,θ1)的值，具体做法是求导。直到最终收敛。

迭代公式如下：

其中 θj 可以是 θ0 和 θ1 这两个参数，α 为步长，整个式子的意义为，θ0,θ1 每次向 J(θ0,θ1)负梯度方向下降步长 α。

学习率

公式中的步长 α，也称为学习率，用来控制每次下降的幅度。

我们应该调整参数 α 以确保梯度下降算法在合理的时间内收敛。

如果 α 过小，每步会移动非常近，收敛时间就会很长。
如果 α 过大，每步会移动比较远，会导致直接越过极小值，甚至无法收敛到最低点。

如果我们时间耗费较长或无法收敛，那就说明我们要重新制定学习率 α。

线性回归梯度下降

对于线性模型，我们可以这样写梯度下降函数。

h(x)是需要拟合的函数。

J(θ)称为均方误差或 cost function。用来衡量训练集众的样本对线性模式的拟合程度。

m 为训练集众样本的个数。

θ 是我们最终需要通过梯度下降法来求得的参数。

接下来的梯度下降法就有两种不同的迭代思路。

批量梯度下降（Batch Gradient Descent）

可以看到上述每次迭代都需要计算所有样本的残差并加和，批量梯度下降是梯度下降法最原始的形式，它的具体思路是在更新每一参数时都使用所有的样本来进行更新。

1.计算 J(θ)关于 θT 的偏导数,也就得到了向量中每一个 θ 的梯度。

2.沿着梯度的反方向更新参数 θ 的值

3.迭代直到收敛。

优点：全局最优解，易于并行实现。
缺点：当样本数目很多时，训练过程会很慢。

随机梯度下降（Stochastic gradient descent）

和批量梯度有所不同的地方在于，每次迭代只选取一个样本的数据，一旦到达最大的迭代次数或是满足预期的精度，就停止。

随机梯度下降法的 θ 更新表达式。

迭代直到收敛。

优点：训练速度快。
缺点：准确度下降，并不是全局最优，不易于并行实现。

视觉效果

当我们的成本函数处于图的坑底时，J 值最小，为最佳解。

粒度是关键: 对神经机器翻译应用差分隐私的调查研究

在应用差分隐私(DP)保护个人数据时,选择合适的粒度至关重要。本文针对神经机器翻译(NMT)任务,深入研究了句子级和文档级两种粒度应用 DP 的效果,揭示了选择适当隐私粒度的重要性。研究背景与动机近年来,随着对个人隐私和数据泄露风险的日益关注,差分隐私在 NLP 领域的应用越来越广泛。然而,如何选择合适的隐私单元( ..

小样本学习 · Few-shot Learning，FSL

待完成的视频：论文解读合集：【CVPR 2021】小样本学习论文解读 | Few-Shot Classification with Feature Map..._哔哩哔哩_bilibili 王树森：Few-Shot Learning (1/3): 基本概念 (youtube.com) 概述描述 FSL旨在解决在训练 ..

机器学习 -KNN 算法原理 && Spark 实现

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

怎么当好一名师长 -- 林彪

一九三六年十二月　　一九三六年十二月，我在抗大学习以后回到前方工作的时候，林军团长告诉我：中央、军委决定我由师政治委员改做师长工作，当时我问军团长说，我当不好师长。在我的要求下，林军团长专门同我讲了一次怎样当师长的问题，讲的很深刻很精辟，几十年来，林军团长的这个指示始终鲜明的烙印在我的脑海里。我一直运用它来鞭策自己， ..

想试着开发一个画布插件

没有代码基础，纯看 Cursor 给不给力了，祝我好运吧 [图片] 当日 22:59 更新：[图片] 把这个 dock 栏搞出来就用了我半条命当日 23:32 更新：喜报！ ai 侧边栏和设置界面正常工作！ [图片] [图片] 2025.04.01 17:52 更新：里程碑！经历九九八十一难，ai 能看到当前文档 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

机器学习 (2)——线性回归

相关帖子

粒度是关键: 对神经机器翻译应用差分隐私的调查研究

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

思源修改图片能立即同步吗

怎么当好一名师长 -- 林彪

想试着开发一个画布插件

如何导出大纲

欢迎来到这里！

近期热议

推荐标签标签

最新标签

机器学习 (2)——线性回归

相关帖子

粒度是关键: 对神经机器翻译应用差分隐私的调查研究

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

思源修改图片能立即同步吗

怎么当好一名师长 -- 林彪

想试着开发一个画布插件

如何导出大纲

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签