学习向量量化 (LVQ)

学习向量量化

“学习向量量化”(Learning Vector Quantization，简称LVQ)是一种利用监督信息辅助的聚类算法，像K-Meas算法一样也是通过调整一组类似于质心的点来进行聚类。

算法描述

假设给定样本 D={(X1,Y1),(X2,Y2),...,(Xm,Ym)},X 表示样本的属性，Y 表示样本的类别标记。LVQ 目的是学习一组 n 维原型向量{P1,P2,...Pq}，当样本点距离这组原型向量的某个分向量距离最近时那么它的类别标记应当与这个原型分向量一致。原型向量的训练过程和 K-Means 算法大同小异，初始时通过随机一组原型向量(可以从样本点中随机提取)，当与原型向量最近的样本点类别标记与此原型向量的类别不同时，那么要调整原型向量，使得原型向量离当前的样本点远一些，相反则需要调整它离当前样本点近一些，当算法满足停止条件时(达到最大迭代次数，或原型向量更新变化很小甚至不变时)则可以返回这一组原型向量。

代码实现：

生成数据集：


X=datasets.make_blobs(n_samples=1000,centers=3) #1000个样本点分为3类

初始化原型向量：


P=np.zeros((q,col)) #原型向量
    for i in range(q):   #初始化原型向量
        index=np.where(sample[1]==Label[i])[0]
        choose=np.random.randint(0,len(index),1)
        P[i,:]=sample[0][index[choose],:]

训练主体：


for i in range(1000):   #训练
    choose=np.random.randint(0,row,1) #随机选取一个样本
    dis=np.linalg.norm(sample[0][choose,:]-P,axis=1) #计算与原型向量的距离
    y=dis.tolist().index(min(dis))  #获取距离最近的原型向量下标
    if Label[y]==sample[1][choose]: #更新原型向量
        P[y,:]=P[y,:]+eta*(sample[0][choose,:]-P[y,:])
    else:
        P[y,:]=P[y,:]-eta*(sample[0][choose,:]-P[y,:])

完整代码：


from sklearn import datasets
import matplotlib.pyplot as plt
import numpy as np
X=datasets.make_blobs(n_samples=1000,centers=3) #1000个样本点分为3类

def lvq(sample,q,Label,eta):
    if q!=len(Label):
        return 0
    row,col=np.shape(sample[0]) #获取样本集的规格
    P=np.zeros((q,col)) #原型向量
    for i in range(q):   #初始化原型向量
        index=np.where(sample[1]==Label[i])[0]
        choose=np.random.randint(0,len(index),1)
        P[i,:]=sample[0][index[choose],:]
    for i in range(1000):   #训练
        choose=np.random.randint(0,row,1) #随机选取一个样本
        dis=np.linalg.norm(sample[0][choose,:]-P,axis=1) #计算与原型向量的距离
        y=dis.tolist().index(min(dis))  #获取距离最近的原型向量下标
        if Label[y]==sample[1][choose]: #更新原型向量
            P[y,:]=P[y,:]+eta*(sample[0][choose,:]-P[y,:])
        else:
            P[y,:]=P[y,:]-eta*(sample[0][choose,:]-P[y,:])
    IDX=[]  #分类标记
    for i in sample[0]:  #以距离最近的标记为样本的类别
        D=np.linalg.norm(i-P,axis=1)
        y=D.tolist().index(min(D))
        IDX.append(Label[y])
    plot(IDX,sample[0],max(Label)+1,P)
    return P
def plot(a,X,k,p):  #绘画板块
    m=k
    for j in range(m):
        index=[i for i,v in enumerate(a) if v==j]
        x=[]
        y=[]
        for k in index:
            x.append(X[k][0])
            y.append(X[k][1])
        plt.scatter(x,y)
    plt.scatter(p[:,0],p[:,1],marker='x')
    plt.show()

测试代码:


lvq(X,5,[0,1,0,1,2],0.3)


array([[  7.02402226,   3.74801884],
       [-10.38672182,   3.03633487],
       [  8.20578187,   4.94912081],
       [ -8.30953565,   3.69883677],
       [  7.69178827,  -7.90175793]])

FuzzyC-Means 算法

FuzzyC-Means 模糊c-均值聚类算法 fuzzy c-means algorithm(FCMA)或(FCM)。模糊c均值聚类算法，是当前模糊系统里表现比较好的算法之一其特征与k-means相似，也是基于距离来判断分类。模糊c均值需要用户提供除数据之外至少一个参数，而这个参数与k-means中的k类似。模糊 ..

DBSCAN 聚类

DBSCAN Density-Based Spatial Clustering of Applications with Noise 一种基于密度，对噪声鲁棒的空间聚类算法。 DBSCAN 算法可以找到样本点的全部密集区域，并把这些密集区域当做一个一个的聚类簇通常情形下，密度聚类算法从样本密度的角度来考察样本之间的 ..

AGNES 算法

层次凝聚算法——AGNES AGNES算法是一种基于层次凝聚的聚类算法，它的思想十分朴素。假设现在有一个待聚类的数据集，那么根据分而治之的思想我们可以首先将每一个样本点看成是一个类，然后根据一定的规则将这些比较“小”的类进行合并，进而达到最终想要的结果。那么这个合并的规则是什么？通常我们将样本点之间的距离看成相似度。 ..

聚类分析 -- 层次聚类

层次聚类算法，分为两个方向，自顶向下（分裂的）或自底向上（凝聚的），通过定义簇的临近性概念来逐步进行聚类。关键性问题：临近性度量单链，两个簇中任意两点之间的最短距离（最大相似度），擅于处理非椭圆形的簇，但对噪声和离群点敏感全链，两个簇中任意两点之间的最长距离（最小相似度），对噪声和离群点不敏感，但是可能使大的簇破 ..

Spark mllib API- clustering

#mllib.clustering 聚类更多聚类的相关知识可以查看我的另外一篇博客[链接] Spark 目前提供 KMeans、GaussianMixture、PowerIterationClustering、StreamingKMeans、LDA。 ##KMeans k 均值聚类 ###背景知识 KMeans 是无 ..

更新建议：镜像数据库不要完全同步！！！

数据库的镜像同步主要意义在于同步数据实质内容，而不是视图或筛选也跟着一块同步哇！！！我举个应用例子，主页面有两个数据库，一个数据库记录我的所有项目，另一个数据库记录所有项目的所有代办事项。每个项目都有一个子页面，子页面中有此项目简介和一个记录此项目代办情况的数据库。现在，只要这主页面和子页面的两个代办数据库是镜像的 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

学习向量量化 (LVQ)

相关帖子

FuzzyC-Means 算法

DBSCAN 聚类

AGNES 算法

聚类分析 -- 层次聚类

Spark mllib API- clustering

思源笔记的登录记录怎么查询？

更新建议：镜像数据库不要完全同步！！！

欢迎来到这里！

近期热议

推荐标签标签

最新标签

学习向量量化 (LVQ)

相关帖子

FuzzyC-Means 算法

DBSCAN 聚类

AGNES 算法

聚类分析 -- 层次聚类

Spark mllib API- clustering

思源笔记的登录记录怎么查询？

更新建议：镜像数据库不要完全同步！！！

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签