Spark mllib API- feature

本贴最后更新于 3355 天前,其中的信息可能已经斗转星移

spark 中大部分的向量转换采用训练(fit)-转化(transform)形式,因此会有对应的训练类和模型类。
该模块主要包括了,标准化、归一化、分词、特征选择

##pyspark.mllib.feature.Normalizer(p=2.0)
使用 Lp 范式对样本进行归一化。
若 1<=p<float('inf'),使用 sum(abs(vector)^p)^(1/p)范式。
若 p=float('inf'),使用 max(abs(vector))范式。

  • transform(vector)
    • 参数:vector - 需要正则化的 RDD
    • 返回: 正则化的向量 RDD

##pyspark.mllib.feature.StandardScaler(withMean=False, withStd=True)
使用训练集的列统计信息,通过修改均值和范围进行标准化

  • fit(dataset):StandardScalerModel
    计算均值和方差,并以模型保存,以便后续使用。相当于训练模型。

pyspark.mllib.feature.StandardScalerModel(java_model)

表示可以把特征转化为正态分布的 StandardScaler 模型

  • setWithMean(withMean)
    参数为 boolean,决定是否使用均值
  • setWithStd(withStd)
    参数为 boolean,决定是否使用 std
  • transform(vector)
    对特征进行标准变换

##pyspark.mllib.feature.HashingTF(numFeatures=1048576)
使用 hash 建立起 项-频度 映射。

  • numFeatures:向量维度
  • indexOf(term):返回指定项的索引
  • transform(document):将输入转化为项-频度向量

##pyspark.mllib.feature.IDF(minDocFreq=0)
IDF 为逆向文件频率,公式如下:

idf = log((m + 1) / (d(t) + 1))

其中 m 为文件总数,d(t)为出现项 t 的文件数。

  • 参数:minDocFreq
    通过 minDocFreq 参数,可以利用 IDF 过滤掉一些在文档中出现次数过少的词。若设置为 0,则返回 TF-IDF
  • 方法:fit(dataset)
    计算数据集的 IDF

##pyspark.mllib.feature.IDFModel(java_model)
IDF 模型

  • IDF():返回当前 IDF 向量
  • transform(x):将 TF 向量转化为 TF-IDF 向量

##pyspark.mllib.feature.Word2Vec

Word2Vec 创建了一个表示语料库中词语的的向量。算法首先从语料库中创建一个词汇表,然后创建对应到词汇表中单词的向量。在自然语言处理和机器学习算法中,该向量可以直接使用。

我们使用 skip-gram 模型实现,并且使用分层 softmax 方法来训练模型。

  • fit(data):使用 data 进行训练,计算向量
  • setLearningRate(learningRate):设置初始学习率
  • setMinCount(minCount):设置最少出现的 token 次数,默认 5
  • setNumIterations(numIterations):设置迭代次数,默认 1
  • setNumPartitions(numPartitions):设置分区个数,默认 1
  • setSeed(seed):设置随机种子
  • setVectorSize(vectorSize):设置向量维度,默认 100

##pyspark.mllib.feature.Word2VecModel(java_model)
Word2Vec fit 得到的模型

  • findSynonyms(word, num):找到指定 word 的 num 个同义词
  • getVectors():返回代表向量的单词表
  • transform(word):将单词转化为向量

pyspark.mllib.feature.ChiSqSelector(numTopFeatures)

创建一个卡方向量选择器,用于特征选择

  • 参数:numTopFeatures 保留的卡方较大的特征的数量。
  • fit(data):对 LabeledPoint 格式的 RDD 进行训练,返回 ChiSqSelectorModel,这个类将输入数据转化到降维的特征空间。

##pyspark.mllib.feature.ChiSqSelectorModel(java_model)
由 ChiSqSelector 训练得到的模型

  • transform(vector),对 RDD 进行转换,转化到降维的特征空间。

##pyspark.mllib.feature.ElementwiseProduct(scalingVector)
使用输入的 scalingVector 作为每一列的权值,对每一列进行扩展。

  • transform(vector):对向量进行 Hadamard 卷积。
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 567 关注
  • 数据挖掘
    17 引用 • 32 回帖 • 3 关注
  • 归一化
    1 引用 • 1 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • zempty

    感动ing 好久没有看到这么优质的文章!请容我小小的激动一下

推荐标签 标签

  • AWS
    11 引用 • 28 回帖 • 8 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 270 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26157 引用 • 108660 回帖 • 1 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    589 引用 • 3528 回帖 • 2 关注
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    10 引用 • 54 回帖 • 180 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 248 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    108 引用 • 295 回帖 • 1 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 197 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    181 引用 • 400 回帖
  • RemNote
    2 引用 • 16 回帖 • 24 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 92 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 3 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 26 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 50 关注
  • gRpc
    11 引用 • 9 回帖 • 100 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    173 引用 • 414 回帖 • 364 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 281 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    187 引用 • 831 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 77 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10054 引用 • 45681 回帖 • 69 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 2 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 232 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 192 关注
  • Office

    Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。

    5 引用 • 34 回帖 • 1 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 82 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    79 引用 • 431 回帖