李航《统计学习方法》第三章 k 近邻 python 实现（CIFAR10 数据集）

KNN 简述

k 近邻法简单、直观，顾名思义即是对输入新样本在训练集中寻找 k 个特征最相似的样本，再根据这 k 个样本的标签通过多数表决等方式来预测新样本的类别。因此，k 近邻不具有显示的学习过程。k 近邻每次预测都需要在整个训练集查找 k 个最近样本，实现查找最简单的方法是线性扫描，书中还讲述了一种相对高效的实现方法 kd 树能够使查找实现在 $O (l o g n)$ 时间量级，但由于时间限制本文只采取最简单的线性扫描。k 值的选择、距离度量及分类决策规则是 k 近邻法的三要素。

代码链接：https://github.com/923012373/lihang_statistic_learning

数据集介绍

CIFAR10 数据集，由 10 个类的 60000 个 32*32 三通道图片组成，每个类有 6000 张图像，有 50000 个训练样本和 10000 个测试样本。

实验部分

取 k 值为 1，距离度量为 $L_{1}$ 距离，训练集测试集各 10000，最后测试正确率为 21.7%，这比随机 10% 的效果要好了。

小样本学习 · Few-shot Learning，FSL

待完成的视频：论文解读合集：【CVPR 2021】小样本学习论文解读 | Few-Shot Classification with Feature Map..._哔哩哔哩_bilibili 王树森：Few-Shot Learning (1/3): 基本概念 (youtube.com) 概述描述 FSL旨在解决在训练 ..

机器学习 -KNN 算法原理 && Spark 实现

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

机器学习算法之 KMeans 聚类算法

一、K-Means 聚类算法原理 1. 算法思想物以类聚，人以群分。 K-Means：一种常见的无监督学习算法，名字叫做 K 均值算法。是否为监督学习：只需要看输入的数据是否有标签。 K-Means 聚类算法是一种迭代求解的聚类分析算法。算法思想是：我们需要随机选择 K 个对象作为初始的聚类中心，然后计算每个对 ..

机器学习基础算法原理

很早以前写的，担心以后会丢失，故在此备份。字不好请见谅。一、模型评估和选择这一章主要是讲对于数据的操作，应当如何增加数据来进行评估，以及评估方法如 macro/micro F1 score、ROC、AUC 等。 [图片] [图片] 二、线性模型基础线性回归的算法，进阶有如拉格朗日插值法、牛顿插值法、勒让德多项式、 ..

数据分析转岗 AI 薪资翻 3 倍多 | 机器学习面试都问些什么？

添加微信：julyedukefu14，回复【11】领取最新升级版【名企 AI 面试 100 题】 1、请详细说说支持向量机（support vector machine，SVM）的原理支持向量机，因其英文名为 support vector machine，故一般简称 SVM，通俗来讲，它是一种二类分类模型，其基本模型 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于