[机器学习实战之读书笔记 1] k- 邻近算法

前言

此文是《机器学习实战》的读书笔记的第一篇，介绍该书中讲解的第一个机器学习算法：k-邻近算法。

算法原理

将输入数据的每个特征数据与训练样本集对应的特征数据进行比较，从而提取出样本集中特征最相似（即最邻近）的 k 个数据，将这 k 个数据中比例最高的分类标签作为输入数据的分类标签。
由于每个训练样本数据都是有标签的，所以 kNN 算法是监督学习的一种算法。

举例说明

假设有一组电影分类的样本数据集，根据电影中打斗镜头数和接吻镜头数的不同，被区分为动作片和爱情片。

有如下 7 部电影样本数据，其中 6 部已知类型，1 部未知类型。我们希望从这 6 部电影中找到某种规律，从而预测未知类型的“电影 7”属于什么类型。

电影名称	打斗镜头数	接吻镜头数	电影类型
电影 1	3	104	爱情片
电影 2	2	100	爱情片
电影 3	1	81	爱情片
电影 4	101	10	动作片
电影 5	99	5	动作片
电影 6	98	2	动作片
电影 7	18	90	？

将上面样本数据在图中表示出来：

图中 6 个黑色的点表示上面样本数据集中的 6 部已知类型的电影，其中 3 部爱情片，3 部动作片。红色的点表示我们将要预测的未知类型的“电影 7”。

根据 kNN 算法原理，我们需要首先计算出图中红色点与所有黑色点的距离。大家都还记得计算两个点之间的距离公式吧。
如果点 1 记为（x1，y1），点 2 记为（x2，y2），那么点 1 与点 2 的距离为：

\sqrt{(x1-x2)^{2} + (y1-y2)}

\sqrt{(x1-x2)^{2} + (y1-y2)^{2}}

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

机器学习算法之 KMeans 聚类算法

一、K-Means 聚类算法原理 1. 算法思想物以类聚，人以群分。 K-Means：一种常见的无监督学习算法，名字叫做 K 均值算法。是否为监督学习：只需要看输入的数据是否有标签。 K-Means 聚类算法是一种迭代求解的聚类分析算法。算法思想是：我们需要随机选择 K 个对象作为初始的聚类中心，然后计算每个对 ..

机器学习基础算法原理

很早以前写的，担心以后会丢失，故在此备份。字不好请见谅。一、模型评估和选择这一章主要是讲对于数据的操作，应当如何增加数据来进行评估，以及评估方法如 macro/micro F1 score、ROC、AUC 等。 [图片] [图片] 二、线性模型基础线性回归的算法，进阶有如拉格朗日插值法、牛顿插值法、勒让德多项式、 ..

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

添加微信：julyedukefu14，回复【11】领取最新升级版【名企 AI 面试 100 题】 1、请详细说说支持向量机（support vector machine，SVM）的原理支持向量机，因其英文名为 support vector machine，故一般简称 SVM，通俗来讲，它是一种二类分类模型，其基本模型 ..

AI 学习路线

一、基础知识 [图片] 数学数学基础：高等数学、线性代数、概率论与数理统计对于算法本身而言，额外需要数值分析等相关课程，学过更佳，不想学可以边看边查也可以。编程 python 推荐 IDE：pycharm、jupyter pycharm 适合看源码、debug，大型项目推荐 jupyter 适合可视化，代码分块执 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于