Spark mllib API- feature

本贴最后更新于 3334 天前,其中的信息可能已经斗转星移

spark 中大部分的向量转换采用训练(fit)-转化(transform)形式,因此会有对应的训练类和模型类。
该模块主要包括了,标准化、归一化、分词、特征选择

##pyspark.mllib.feature.Normalizer(p=2.0)
使用 Lp 范式对样本进行归一化。
若 1<=p<float('inf'),使用 sum(abs(vector)^p)^(1/p)范式。
若 p=float('inf'),使用 max(abs(vector))范式。

  • transform(vector)
    • 参数:vector - 需要正则化的 RDD
    • 返回: 正则化的向量 RDD

##pyspark.mllib.feature.StandardScaler(withMean=False, withStd=True)
使用训练集的列统计信息,通过修改均值和范围进行标准化

  • fit(dataset):StandardScalerModel
    计算均值和方差,并以模型保存,以便后续使用。相当于训练模型。

pyspark.mllib.feature.StandardScalerModel(java_model)

表示可以把特征转化为正态分布的 StandardScaler 模型

  • setWithMean(withMean)
    参数为 boolean,决定是否使用均值
  • setWithStd(withStd)
    参数为 boolean,决定是否使用 std
  • transform(vector)
    对特征进行标准变换

##pyspark.mllib.feature.HashingTF(numFeatures=1048576)
使用 hash 建立起 项-频度 映射。

  • numFeatures:向量维度
  • indexOf(term):返回指定项的索引
  • transform(document):将输入转化为项-频度向量

##pyspark.mllib.feature.IDF(minDocFreq=0)
IDF 为逆向文件频率,公式如下:

idf = log((m + 1) / (d(t) + 1))

其中 m 为文件总数,d(t)为出现项 t 的文件数。

  • 参数:minDocFreq
    通过 minDocFreq 参数,可以利用 IDF 过滤掉一些在文档中出现次数过少的词。若设置为 0,则返回 TF-IDF
  • 方法:fit(dataset)
    计算数据集的 IDF

##pyspark.mllib.feature.IDFModel(java_model)
IDF 模型

  • IDF():返回当前 IDF 向量
  • transform(x):将 TF 向量转化为 TF-IDF 向量

##pyspark.mllib.feature.Word2Vec

Word2Vec 创建了一个表示语料库中词语的的向量。算法首先从语料库中创建一个词汇表,然后创建对应到词汇表中单词的向量。在自然语言处理和机器学习算法中,该向量可以直接使用。

我们使用 skip-gram 模型实现,并且使用分层 softmax 方法来训练模型。

  • fit(data):使用 data 进行训练,计算向量
  • setLearningRate(learningRate):设置初始学习率
  • setMinCount(minCount):设置最少出现的 token 次数,默认 5
  • setNumIterations(numIterations):设置迭代次数,默认 1
  • setNumPartitions(numPartitions):设置分区个数,默认 1
  • setSeed(seed):设置随机种子
  • setVectorSize(vectorSize):设置向量维度,默认 100

##pyspark.mllib.feature.Word2VecModel(java_model)
Word2Vec fit 得到的模型

  • findSynonyms(word, num):找到指定 word 的 num 个同义词
  • getVectors():返回代表向量的单词表
  • transform(word):将单词转化为向量

pyspark.mllib.feature.ChiSqSelector(numTopFeatures)

创建一个卡方向量选择器,用于特征选择

  • 参数:numTopFeatures 保留的卡方较大的特征的数量。
  • fit(data):对 LabeledPoint 格式的 RDD 进行训练,返回 ChiSqSelectorModel,这个类将输入数据转化到降维的特征空间。

##pyspark.mllib.feature.ChiSqSelectorModel(java_model)
由 ChiSqSelector 训练得到的模型

  • transform(vector),对 RDD 进行转换,转化到降维的特征空间。

##pyspark.mllib.feature.ElementwiseProduct(scalingVector)
使用输入的 scalingVector 作为每一列的权值,对每一列进行扩展。

  • transform(vector):对向量进行 Hadamard 卷积。
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 569 关注
  • 数据挖掘
    17 引用 • 32 回帖 • 3 关注
  • 归一化
    1 引用 • 1 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • zempty

    感动ing 好久没有看到这么优质的文章!请容我小小的激动一下

推荐标签 标签

  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 35 关注
  • gRpc
    11 引用 • 9 回帖 • 97 关注
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    7 引用 • 69 回帖 • 3 关注
  • Anytype
    3 引用 • 31 回帖 • 25 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 7 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 78 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 152 关注
  • 自由行
    1 关注
  • 音乐

    你听到信仰的声音了么?

    62 引用 • 512 回帖
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 145 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 36 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 585 回帖
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖 • 1 关注
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖 • 1 关注
  • abitmean

    有点意思就行了

    31 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 662 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 819 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    134 引用 • 1127 回帖 • 110 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 6 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25901 引用 • 107331 回帖
  • 印象笔记
    3 引用 • 16 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    108 引用 • 295 回帖 • 1 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 818 回帖 • 1 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    5 引用 • 16 回帖 • 1 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 285 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 6 关注
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 557 关注