Spark mllib API- feature

spark 中大部分的向量转换采用训练（fit）-转化（transform）形式，因此会有对应的训练类和模型类。
该模块主要包括了，标准化、归一化、分词、特征选择

##pyspark.mllib.feature.Normalizer(p=2.0)
使用 Lp 范式对样本进行归一化。
若 1<=p<float('inf')，使用 sum(abs(vector)^p)^(1/p)范式。
若 p=float('inf')，使用 max(abs(vector))范式。

transform(vector)
- 参数：vector - 需要正则化的 RDD
- 返回：正则化的向量 RDD

##pyspark.mllib.feature.StandardScaler(withMean=False, withStd=True)
使用训练集的列统计信息，通过修改均值和范围进行标准化

fit(dataset):StandardScalerModel
计算均值和方差，并以模型保存，以便后续使用。相当于训练模型。

pyspark.mllib.feature.StandardScalerModel(java_model)

表示可以把特征转化为正态分布的 StandardScaler 模型

setWithMean(withMean)
参数为 boolean，决定是否使用均值
setWithStd(withStd)
参数为 boolean，决定是否使用 std
transform(vector)
对特征进行标准变换

##pyspark.mllib.feature.HashingTF(numFeatures=1048576)
使用 hash 建立起项-频度映射。

numFeatures：向量维度
indexOf(term)：返回指定项的索引
transform(document)：将输入转化为项-频度向量

##pyspark.mllib.feature.IDF(minDocFreq=0)
IDF 为逆向文件频率，公式如下：


idf = log((m + 1) / (d(t) + 1))

其中 m 为文件总数，d(t)为出现项 t 的文件数。

参数：minDocFreq
通过 minDocFreq 参数，可以利用 IDF 过滤掉一些在文档中出现次数过少的词。若设置为 0，则返回 TF-IDF
方法：fit(dataset)
计算数据集的 IDF

##pyspark.mllib.feature.IDFModel(java_model)
IDF 模型

IDF()：返回当前 IDF 向量
transform(x)：将 TF 向量转化为 TF-IDF 向量

##pyspark.mllib.feature.Word2Vec

Word2Vec 创建了一个表示语料库中词语的的向量。算法首先从语料库中创建一个词汇表，然后创建对应到词汇表中单词的向量。在自然语言处理和机器学习算法中，该向量可以直接使用。

我们使用 skip-gram 模型实现，并且使用分层 softmax 方法来训练模型。

fit(data):使用 data 进行训练，计算向量
setLearningRate(learningRate)：设置初始学习率
setMinCount(minCount)：设置最少出现的 token 次数，默认 5
setNumIterations(numIterations)：设置迭代次数，默认 1
setNumPartitions(numPartitions)：设置分区个数，默认 1
setSeed(seed)：设置随机种子
setVectorSize(vectorSize)：设置向量维度，默认 100

##pyspark.mllib.feature.Word2VecModel(java_model)
Word2Vec fit 得到的模型

findSynonyms(word, num)：找到指定 word 的 num 个同义词
getVectors()：返回代表向量的单词表
transform(word)：将单词转化为向量

pyspark.mllib.feature.ChiSqSelector(numTopFeatures)

创建一个卡方向量选择器，用于特征选择

参数：numTopFeatures 保留的卡方较大的特征的数量。
fit(data)：对 LabeledPoint 格式的 RDD 进行训练，返回 ChiSqSelectorModel，这个类将输入数据转化到降维的特征空间。

##pyspark.mllib.feature.ChiSqSelectorModel(java_model)
由 ChiSqSelector 训练得到的模型

transform(vector)，对 RDD 进行转换，转化到降维的特征空间。

##pyspark.mllib.feature.ElementwiseProduct(scalingVector)
使用输入的 scalingVector 作为每一列的权值，对每一列进行扩展。

transform(vector)：对向量进行 Hadamard 卷积。

聚类分析 -- 层次聚类

层次聚类算法，分为两个方向，自顶向下（分裂的）或自底向上（凝聚的），通过定义簇的临近性概念来逐步进行聚类。关键性问题：临近性度量单链，两个簇中任意两点之间的最短距离（最大相似度），擅于处理非椭圆形的簇，但对噪声和离群点敏感全链，两个簇中任意两点之间的最长距离（最小相似度），对噪声和离群点不敏感，但是可能使大的簇破 ..

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

姓名：分数：一、选择题（48 分） 1、以下两种描述分别对应哪两种对分类算法的评价标准？ ( ) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, R ..

scikit-learn 教程 - 导航

此为目录导航。项目里头需要修改某个机器算法，为了方便阅读源码和修改，选择了 python 实现的 sklearn。不得不说 sklearn 的文档写得特别好，忍不住翻译一发。翻译也是欣赏和学习高手们设计的艺术吧。 #[链接] 机器学习：问题设定加载样例数据集学习和预测模型持久化惯例 #[链接] 统计学习： ..

sklearn-文本分析

本章节的目的是通过一个实际的问题来介绍 scikit-learn 的主要文本分析工具。该问题是：分析有 20 个主题的文本文件（新闻帖）。在本章节中，我们会接触到如下内容：加载文件内容和类别抽取适合机器学习的特征向量训练线性模型来拟合分类使用网格搜索来寻找适合特征抽取和分类的参数配置 #开始在开始该教程之前 ..

sklearn-统计机器学习教程

统计机器学习随着面对的数据集规模的快速增长，机器学习技术越来越重要。其面对的问题从对不同的观测对象建立预测功能，转变为对观测底线分类或学习未打标签数据的结构。该教程将探索统计学习，使用机器学习技术达到统计推断的目的：描绘手头数据的“外貌”。 scikit-learn 是一个实现了经典机器学习算法的模块。其紧密结合了 ..

简介：使用scikit-learn进行数据挖掘

该简介翻译自 An introduction to machine learning with scikit-learn。选择翻译这篇简介的原因很简单： scikit-learn 是非常优秀的 python 机器学习库该篇写得非常好，即使不使用 sklearn，也可以作为数据挖掘入门的短文。以下是翻译的内容。 # ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Spark mllib API- feature

pyspark.mllib.feature.StandardScalerModel(java_model)

pyspark.mllib.feature.ChiSqSelector(numTopFeatures)

相关帖子

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

scikit-learn 教程 - 导航

sklearn-文本分析

sklearn-统计机器学习教程

简介：使用scikit-learn进行数据挖掘

欢迎来到这里！

近期热议

推荐标签标签

最新标签

Spark mllib API- feature

pyspark.mllib.feature.StandardScalerModel(java_model)

pyspark.mllib.feature.ChiSqSelector(numTopFeatures)

相关帖子

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

scikit-learn 教程 - 导航

sklearn-文本分析

sklearn-统计机器学习教程

简介：使用scikit-learn进行数据挖掘

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签