Spark mllib API- fpm

spark 在该模块中提供了两种发现频繁项的算法：FPGrowth 和 PrefixSpan。

##FPGrowth

spark 并行化的 FPGrowth 算法，用于挖掘频繁项。FPGrowth 算法基于 Apriori，采用 FP 树减少扫描数据集的次数。更多和 FPGrowth、Apriori 算法相关可看我的另一篇博文：数据挖掘算法初窥门庭--关联

类：FreqItemset
该类用于表示频繁项，数据结构为 (items, freq) 元组。
类： pyspark.mllib.fpm.FPGrowth
- 方法： train(data, minSupport=0.3, numPartitions=-1)
  - data：数据集
  - minSupport：支持度，默认 0.3
  - numPartitions：用于 FPGrowth 算法计算的分区数，默认和输入数据的分区数一致。
类：pyspark.mllib.fpm.FPGrowthModel
- 方法： 'freqItemsets()'
  返回该模型的 FreqItemset 集合

##PrefixSpan
spark 并行化的 PrefixSpan 算法，用于挖掘频繁序列模式。PrefixSpan 算法是韩家炜老师在 2004 年提出的序列模式算法。
prefixspan 算法的核心是产生前缀和对应的后缀，每次递归都将合适的后缀变为前缀。

类：FreqSequence
该类用于表示频繁序列，数据结构为(sequence, freq) 元组
类：pyspark.mllib.fpm.PrefixSpan
- 方法： train(data, minSupport=0.1, maxPatternLength=10, maxLocalProjDBSize=32000000)
  - data：输入数据集，每个样本代表一个序列
  - minSupport：最小支持度，任何出现次数大于 minSupport*size-of-the-dataset 的模式都会被输出，默认为 0.1
  - maxPatternLength：序列的最大长度，默认为 10
  - maxLocalProjDBSize：本地处理前，数据库允许的最大样本数量，若超过此数量，会执行另一个分布式 prefix growth 迭代。默认 32000000
类： pyspark.mllib.fpm.PrefixSpanModel
- 方法： freqSequences()
  返回该模型的频繁序列集

聚类分析 -- 层次聚类

层次聚类算法，分为两个方向，自顶向下（分裂的）或自底向上（凝聚的），通过定义簇的临近性概念来逐步进行聚类。关键性问题：临近性度量单链，两个簇中任意两点之间的最短距离（最大相似度），擅于处理非椭圆形的簇，但对噪声和离群点敏感全链，两个簇中任意两点之间的最长距离（最小相似度），对噪声和离群点不敏感，但是可能使大的簇破 ..

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

姓名：分数：一、选择题（48 分） 1、以下两种描述分别对应哪两种对分类算法的评价标准？ ( ) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, R ..

scikit-learn 教程 - 导航

此为目录导航。项目里头需要修改某个机器算法，为了方便阅读源码和修改，选择了 python 实现的 sklearn。不得不说 sklearn 的文档写得特别好，忍不住翻译一发。翻译也是欣赏和学习高手们设计的艺术吧。 #[链接] 机器学习：问题设定加载样例数据集学习和预测模型持久化惯例 #[链接] 统计学习： ..

sklearn-文本分析

本章节的目的是通过一个实际的问题来介绍 scikit-learn 的主要文本分析工具。该问题是：分析有 20 个主题的文本文件（新闻帖）。在本章节中，我们会接触到如下内容：加载文件内容和类别抽取适合机器学习的特征向量训练线性模型来拟合分类使用网格搜索来寻找适合特征抽取和分类的参数配置 #开始在开始该教程之前 ..

sklearn-统计机器学习教程

统计机器学习随着面对的数据集规模的快速增长，机器学习技术越来越重要。其面对的问题从对不同的观测对象建立预测功能，转变为对观测底线分类或学习未打标签数据的结构。该教程将探索统计学习，使用机器学习技术达到统计推断的目的：描绘手头数据的“外貌”。 scikit-learn 是一个实现了经典机器学习算法的模块。其紧密结合了 ..

简介：使用scikit-learn进行数据挖掘

该简介翻译自 An introduction to machine learning with scikit-learn。选择翻译这篇简介的原因很简单： scikit-learn 是非常优秀的 python 机器学习库该篇写得非常好，即使不使用 sklearn，也可以作为数据挖掘入门的短文。以下是翻译的内容。 # ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Spark mllib API- fpm

相关帖子

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

scikit-learn 教程 - 导航

sklearn-文本分析

sklearn-统计机器学习教程

简介：使用scikit-learn进行数据挖掘

欢迎来到这里！

近期热议

推荐标签标签

最新标签

Spark mllib API- fpm

相关帖子

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

scikit-learn 教程 - 导航

sklearn-文本分析

sklearn-统计机器学习教程

简介：使用scikit-learn进行数据挖掘

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签