登录注册

K 近邻算法 (KNN)

本贴最后更新于 1520 天前，其中的信息可能已经时异事殊

K近邻算法（KNN，K-NearestNeighbor）是一种十分简单的分类方法，也是“懒惰学习”的代表。

KNN 没有训练阶段，或者说训练成本为 0。KNN 只需要将已知的样本拿过来与需要测试的样本做一个简单的比较就能将未分类的样本分类。

KNN 的算法流程也十分简单，大致的思路就是，计算待测点与已知点的距离，选取与待测点距离最近的 k 个已知点，统计这 k 个已知点的类别，哪个类别最多那么这个待测点的类别就属于这个类。

代码的简单实现(以鸢尾花数据集为例)：


import numpy as np
from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn import datasets

def Data():
    #载入鸢尾花数据集
    X=datasets.load_iris()
    #从第一类中随机选取5个样本作为训练集
    train_index=np.random.randint(0,50,5)
    #从第二类第三类随机选出10个样本作为训练集(每个样本取5个)
    train_index=np.hstack((train_index,train_index+50,train_index+100))
    trainX=X.data[train_index]
    trainY=X.target[train_index]
    #数据中其他样本点皆为测试集
    test_index=np.delete(np.arange(150),train_index)
    testX=X.data[test_index]
    return trainX,trainY,testX
    
def kNN(k,trainX,trainY,testX):
    testY=[]   #测试的结果集合
    if k>len(trainY): 
        return 0
    for i in testX:
        #计算距离
        dis=np.linalg.norm(trainX-i,axis=1)
        #将距离和训练集的标签用矩阵绑定
        S=np.vstack((dis,trainY))
        #将矩阵按从小到大排好序
        S=S[:,np.argsort(S[0,:])]
        #取前k个已知标签
        label=S[1,0:k]
        #统计最多出现的标签并将其放入结果集合作为第i个样本的分类结果
        testY.append(np.argmax(np.bincount(label.astype(int))))
    return testY

def plot(trainX,trainY,testX,testY):
    plt.scatter(trainX[:,0],trainX[:,1],c=trainY,marker='x')
    plt.scatter(testX[:,0],testX[:,1],c=testY)
    plt.show()

if __name__ == '__main__':
    trainX,trainY,testX=Data()
    testY=kNN(5,trainX,trainY,testX)
    plot(trainX,trainY,testX,testY)

测试结果(只绘制数据集的前两维)：

分类

8 引用 • 10 回帖
机器学习

机器学习（Machine Learning）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
83 引用 • 37 回帖

Lonery 4 年前东莞位置

261 7 26 85 24 8 1 109

相关帖子

回帖

K 近邻算法 (KNN)

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

注册关于

请输入回帖内容 ...

Lonery

东莞

近期热议

推荐标签标签

JVM

JVM（Java Virtual Machine）Java 虚拟机是一个微型操作系统，有自己的硬件构架体系，还有相应的指令系统。能够识别 Java 独特的 .class 文件（字节码），能够将这些文件中的信息读取出来，使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。
180 引用 • 120 回帖
Latke

Latke 是一款以 JSON 为主的 Java Web 框架。
71 引用 • 535 回帖 • 830 关注
Ant-Design

Ant Design 是服务于企业级产品的设计体系，基于确定和自然的设计价值观上的模块化解决方案，让设计者和开发者专注于更好的用户体验。
17 引用 • 23 回帖 • 1 关注
生活

生活是指人类生存过程中的各项活动的总和，范畴较广，一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。
230 引用 • 1454 回帖 • 1 关注
DevOps

DevOps（Development 和 Operations 的组合词）是一组过程、方法与系统的统称，用于促进开发（应用程序/软件工程）、技术运营和质量保障（QA）部门之间的沟通、协作与整合。
58 引用 • 25 回帖 • 2 关注
OkHttp

OkHttp 是一款 HTTP & HTTP/2 客户端库，专为 Android 和 Java 应用打造。
16 引用 • 6 回帖 • 85 关注
ngrok

ngrok 是一个反向代理，通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。
7 引用 • 63 回帖 • 648 关注
百度

百度（Nasdaq：BIDU）是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村，致力于向人们提供“简单，可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”，象征着百度对中文信息检索技术的执著追求。
63 引用 • 785 回帖 • 94 关注
RemNote

2 引用 • 16 回帖 • 11 关注
招聘

哪里都缺人，哪里都不缺人。
188 引用 • 1057 回帖
倾城之链

23 引用 • 66 回帖 • 167 关注
CongSec

本标签主要用于分享网络空间安全专业的学习笔记
1 引用 • 1 回帖 • 31 关注
Java

Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言，是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。
3200 引用 • 8216 回帖
OAuth

OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息（如用户名与密码），即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权，因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。
36 引用 • 103 回帖 • 28 关注
jQuery

jQuery 是一套跨浏览器的 JavaScript 库，强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery，是非常受欢迎的 JavaScript 库。
63 引用 • 134 回帖 • 734 关注
JSON

JSON （JavaScript Object Notation）是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。
52 引用 • 190 回帖 • 1 关注
GAE

Google App Engine（GAE）是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。
14 引用 • 42 回帖 • 812 关注
Oracle

Oracle（甲骨文）公司，全称甲骨文股份有限公司（甲骨文软件系统有限公司），是全球最大的企业级软件公司，总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年，甲骨文已超越 IBM，成为继 Microsoft 后全球第二大软件公司。
107 引用 • 127 回帖 • 339 关注
开源

Open Source, Open Mind, Open Sight, Open Future!
411 引用 • 3588 回帖 • 1 关注
Sym
Sym 是一款用 Java 实现的现代化社区（论坛/BBS/社交网络/博客）系统平台。

下一代的社区系统，为未来而构建
- Sym 安装指南
- 客户端 API 文档
524 引用 • 4601 回帖 • 707 关注
服务

提供一个服务绝不仅仅是简单的把硬件和软件累加在一起，它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。
41 引用 • 24 回帖 • 2 关注
sts

2 引用 • 2 回帖 • 228 关注
Ruby

Ruby 是一种开源的面向对象程序设计的服务器端脚本语言，在 20 世纪 90 年代中期由日本的松本行弘（まつもとゆきひろ/Yukihiro Matsumoto）设计并开发。在 Ruby 社区，松本也被称为马茨（Matz）。
7 引用 • 31 回帖 • 248 关注
FFmpeg

FFmpeg 是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。
23 引用 • 32 回帖
BookxNote

BookxNote 是一款全新的电子书学习工具，助力您的学习与思考，让您的大脑更高效的记忆。

笔记整理交给我，一心只读圣贤书。

1 引用 • 1 回帖
GitLab

GitLab 是利用 Ruby 一个开源的版本管理系统，实现一个自托管的 Git 项目仓库，可通过 Web 界面操作公开或私有项目。
46 引用 • 72 回帖
反馈

Communication channel for makers and users.
121 引用 • 907 回帖 • 272 关注

最新标签