Spark mllib API- tree

spark 在 tree 这个模块中提供了 DecisionTree、RandomForest、GradientBoostedTrees 三种算法。均属于分类/回归树模型。
三种算法均可用于回归预测。其中决策树和决策森林可用于二元或多元分类，GBT 只能用于二元分类。

随机森林和 GBT 均属于组合模型，解决模型过拟合问题。

##DecisionTree 决策树

类：pyspark.mllib.tree.DecisionTree
决策树算法，训练决策树模型，提供分类和回归。
- 方法：
  trainClassifier(data, numClasses, categoricalFeaturesInfo, impurity='gini', maxDepth=5, maxBins=32, minInstancesPerNode=1, minInfoGain=0.0)
  训练用于分类的二叉树模型。
  - data：训练数据集，格式为 LabeledPoint 的 RDD，LabeledPoint 中的 Label 是整数。
  - numClasses：分类的个数。
  - categoricalFeaturesInfo：向量中为分类属性的索引表。任务没有出现在该列表中的特征将会以连续值处理。{n:k}表示第 n 个特征，是 0-k 的分类属性。
  - impurity：纯度计算，支持“entropy”和“gini”（默认）
  - maxDepth：决策树的最大深度，默认 5
  - maxBins：每个特征分裂时，最大划分(桶)数量，默认 32
  - minInstancesPerNode：需要保证节点分割出的左右子节点的最少的样本数量达到这个值，默认 1
  - minInfoGain：当前节点的所有属性分割带来的信息增益都比这个值要小，默认 0.0
- 方法：
  trainRegressor(data, categoricalFeaturesInfo, impurity='variance', maxDepth=5, maxBins=32, minInstancesPerNode=1, minInfoGain=0.0)
  训练用于回归的二叉树模型。
  - data：训练数据集，格式为 LabeledPoint 的 RDD，LabeledPoint 中的 Label 是实数。
  - categoricalFeaturesInfo：向量中为分类属性的索引表。任务没有出现在该列表中的特征将会以连续值处理。{n:k}表示第 n 个特征，是 0-k 的分类属性。
  - impurity：纯度计算，支持“variance”（默认）
  - maxDepth：决策树的最大深度，默认 5
  - maxBins：每个特征分裂时，最大划分(桶)数量，默认 32
  - minInstancesPerNode：需要保证节点分割出的左右子节点的最少的样本数量达到这个值，默认 1
  - minInfoGain：当前节点的所有属性分割带来的信息增益都比这个值要小，默认 0.0

类：pyspark.mllib.tree.DecisionTreeModel(java_model)
- 方法： call(name, *a)
  调用 java 模型
- 方法： depth()
  获取决策树的深度
- 方法： load(sc, path)
  从指定 path 加载决策树模型
- 方法： numNodes()
  获取决策树的节点数量，包括叶子节点
- 方法： predict(x)
  预测一个或多个样本的 label 值
- 方法： save(sc, path)
  将决策树模型持久化到指定 path
- 方法： toDebugString()
  以 string 输出整个模型的信息

##RandomForest 随机森林

类：pyspark.mllib.tree.RandomForest
- 方法：
  trainClassifier(data, numClasses, categoricalFeaturesInfo, numTrees, featureSubsetStrategy='auto', impurity='gini', maxDepth=4, maxBins=32, seed=None)
  训练一个用于二元或多元分类的随机森林
  - data：训练数据集，格式为 LabeledPoint 的 RDD，LabeledPoint 中的 Label 是整数。
  - numClasses：分类的个数。
  - categoricalFeaturesInfo：向量中为分类属性的索引表。任务没有出现在该列表中的特征将会以连续值处理。{n:k}表示第 n 个特征，是 0-k 的分类属性。
  - numTrees：随机森林中，树的数量。
  - featureSubsetStrategy：特征子集采样策略，支持"auto"（默认），"all","aqrt","log2","onethird"
  - impurity：纯度计算，支持“entropy”和“gini”（建议）
  - maxDepth：树的最大深度。
  - maxBins：每个特征分裂时，最大划分(桶)数量，默认 32
  - seed：用于引导和选择特征子集的随机种子。
- 方法：
  trainRegressor(data, categoricalFeaturesInfo, numTrees, featureSubsetStrategy='auto', impurity='variance', maxDepth=4, maxBins=32, seed=None)
  训练一个用于回归预测的随机森林
  - data：训练数据集，格式为 LabeledPoint 的 RDD，LabeledPoint 中的 Label 是实数。
  - categoricalFeaturesInfo：向量中为分类属性的索引表。任务没有出现在该列表中的特征将会以连续值处理。{n:k}表示第 n 个特征，是 0-k 的分类属性。
  - numTrees：随机森林中，树的数量。
  - featureSubsetStrategy：特征子集采样策略，支持"auto"（默认），"all","aqrt","log2","onethird"
  - impurity：纯度计算，支持“variance”
  - maxDepth：树的最大深度。
  - maxBins：每个特征分裂时，最大划分(桶)数量，默认 32
  - seed：用于引导和选择特征子集的随机种子。

类：pyspark.mllib.tree.RandomForestModel(java_model)
- 方法： call(name, *a)
  调用 java 模型
- 方法： load(sc, path)
  从指定 path 加载决策树模型
- 方法： numTrees()
  获取随机森林中树的数量
- 方法： predict(x)
  预测一个或多个样本的 label 值
- 方法： save(sc, path)
  将决策树模型持久化到指定 path
- 方法： toDebugString()
  以 string 输出整个模型的信息
- 方法： totalNumNodes()
  获得森林中所有树的节点总和

##GradientBoostedTrees（GBT）梯度提升决策树
这是一种模型组合的方法，利用简单模型的组合克服过拟合等问题。常用于推荐系统。

类：pyspark.mllib.tree.GradientBoostedTrees
- 方法：
  trainClassifier(data, categoricalFeaturesInfo, loss='logLoss', numIterations=100, learningRate=0.1, maxDepth=3, maxBins=32)
  训练一个用于二元分类预测的梯度提升决策树模型。
  - data：训练数据集，格式为 LabeledPoint 的 RDD。label 必须为 0 或 1.
  - categoricalFeaturesInfo：向量中为分类属性的索引表。任务没有出现在该列表中的特征将会以连续值处理。{n:k}表示第 n 个特征，是 0-k 的分类属性。
  - loss：损失函数，梯度提升计算时需要最小化的该函数。支持“logLoss” (默认), “leastSquaresError”, “leastAbsoluteError”
  - numIterations：提升的迭代次数，默认 100.
  - learningRate：学习率，取值(0,1]
  - maxDepth：树的最大深度
  - maxBins：每个特征分裂时，最大划分(桶)数量，默认 32
- 方法：
  trainRegressor(data, categoricalFeaturesInfo, loss='leastSquaresError', numIterations=100, learningRate=0.1, maxDepth=3, maxBins=32)
  训练一个用于回归预测的梯度提升决策树模型。
  - data：训练数据集，格式为 LabeledPoint 的 RDD。label 为实数。
  - categoricalFeaturesInfo：向量中为分类属性的索引表。任务没有出现在该列表中的特征将会以连续值处理。{n:k}表示第 n 个特征，是 0-k 的分类属性。
  - loss：损失函数，梯度提升计算时需要最小化的该函数。支持“logLoss” (默认), “leastSquaresError”, “leastAbsoluteError”
  - numIterations：提升的迭代次数，默认 100.
  - learningRate：学习率，取值(0,1]
  - maxDepth：树的最大深度
  - maxBins：每个特征分裂时，最大划分(桶)数量，默认 32

类： pyspark.mllib.tree.GradientBoostedTreesModel(java_model)
- 方法： call(name, *a)
  调用 java 模型
- 方法： load(sc, path)
  从指定 path 加载决策树模型
- 方法： numTrees()
  获取随机森林中树的数量
- 方法： predict(x)
  预测一个或多个样本的 label 值
- 方法： save(sc, path)
  将决策树模型持久化到指定 path
- 方法： toDebugString()
  以 string 输出整个模型的信息
- 方法： totalNumNodes()
  获得森林中所有树的节点总和

聚类分析 -- 层次聚类

层次聚类算法，分为两个方向，自顶向下（分裂的）或自底向上（凝聚的），通过定义簇的临近性概念来逐步进行聚类。关键性问题：临近性度量单链，两个簇中任意两点之间的最短距离（最大相似度），擅于处理非椭圆形的簇，但对噪声和离群点敏感全链，两个簇中任意两点之间的最长距离（最小相似度），对噪声和离群点不敏感，但是可能使大的簇破 ..

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

姓名：分数：一、选择题（48 分） 1、以下两种描述分别对应哪两种对分类算法的评价标准？ ( ) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, R ..

scikit-learn 教程 - 导航

此为目录导航。项目里头需要修改某个机器算法，为了方便阅读源码和修改，选择了 python 实现的 sklearn。不得不说 sklearn 的文档写得特别好，忍不住翻译一发。翻译也是欣赏和学习高手们设计的艺术吧。 #[链接] 机器学习：问题设定加载样例数据集学习和预测模型持久化惯例 #[链接] 统计学习： ..

sklearn-文本分析

本章节的目的是通过一个实际的问题来介绍 scikit-learn 的主要文本分析工具。该问题是：分析有 20 个主题的文本文件（新闻帖）。在本章节中，我们会接触到如下内容：加载文件内容和类别抽取适合机器学习的特征向量训练线性模型来拟合分类使用网格搜索来寻找适合特征抽取和分类的参数配置 #开始在开始该教程之前 ..

sklearn-统计机器学习教程

统计机器学习随着面对的数据集规模的快速增长，机器学习技术越来越重要。其面对的问题从对不同的观测对象建立预测功能，转变为对观测底线分类或学习未打标签数据的结构。该教程将探索统计学习，使用机器学习技术达到统计推断的目的：描绘手头数据的“外貌”。 scikit-learn 是一个实现了经典机器学习算法的模块。其紧密结合了 ..

简介：使用scikit-learn进行数据挖掘

该简介翻译自 An introduction to machine learning with scikit-learn。选择翻译这篇简介的原因很简单： scikit-learn 是非常优秀的 python 机器学习库该篇写得非常好，即使不使用 sklearn，也可以作为数据挖掘入门的短文。以下是翻译的内容。 # ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Spark mllib API- tree

相关帖子

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

scikit-learn 教程 - 导航

sklearn-文本分析

sklearn-统计机器学习教程

简介：使用scikit-learn进行数据挖掘

欢迎来到这里！

近期热议

推荐标签标签

最新标签

Spark mllib API- tree

相关帖子

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

scikit-learn 教程 - 导航

sklearn-文本分析

sklearn-统计机器学习教程

简介：使用scikit-learn进行数据挖掘

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签