链滴
社区愿景和功能特性
优雅的 Markdown 所见即所得编辑
快捷键交互
随时自由编辑分享内容
支持注销账号来去自由
分布式社区网络
开放 API
产品
Symphony 社区系统(Java)
Solo 博客系统(Java)
Vditor 编辑器(TypeScript)
思源笔记(Electron、Go)
Pipe 博客平台(Vue、Go)
发展计划表
发展简史
榜单
GitHub 仓库排行
帖子打赏排行
Solo 博客端排行
积分排行
活跃度排行
贡献排行
本站基于开源项目 Sym
编程代码问答
登录
注册
首页
>
标签
数据挖掘
17
引用 •
32
回帖 •
3
关注 •
386
浏览
参与讨论
关注
关注
分享
fpgrowth
1
引用
聚类
6
引用 •
2
回帖
归一化
1
引用 •
1
回帖
算法
428
引用 •
254
回帖 •
24
关注
als
1
引用 •
1
回帖
默认
5
引用 •
22
回帖
大数据
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
93
引用 •
113
回帖
默认
热议
好评
优选
最近回帖
关注者
查看所有标签
在线数据挖掘工具 tipdm 部署流程
[图片] python 环境必须为 linux 环境 1,安装 python3.6 yum install python-devel postgresql-devel yum search python3 yum install python36u-devel.x86_64 2,按照 python 列表安装插件 创建虚 ..
1.9K
4 年前
聚类分析 -- 层次聚类
层次聚类算法,分为两个方向,自顶向下(分裂的)或自底向上(凝聚的),通过定义簇的临近性概念来逐步进行聚类。 关键性问题:临近性度量 单链,两个簇中任意两点之间的最短距离(最大相似度),擅于处理非椭圆形的簇,但对噪声和离群点敏感 全链,两个簇中任意两点之间的最长距离(最小相似度),对噪声和离群点不敏感,但是可能使大的簇破 ..
969
7 年前
我们公司的统计与数据挖掘考试,考试时间是 1 个小时,满分 100 分
姓名: 分数: 一、选择题(48 分) 1、以下两种描述分别对应哪两种对分类算法的评价标准? ( ) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, R ..
1.2K
7 年前
scikit-learn 教程 - 导航
此为目录导航。 项目里头需要修改某个机器算法,为了方便阅读源码和修改,选择了 python 实现的 sklearn。 不得不说 sklearn 的文档写得特别好,忍不住翻译一发。 翻译也是欣赏和学习高手们设计的艺术吧。 #[链接] 机器学习:问题设定 加载样例数据集 学习和预测 模型持久化 惯例 #[链接] 统计学习: ..
872
8 年前
sklearn-文本分析
本章节的目的是通过一个实际的问题来介绍 scikit-learn 的主要文本分析工具。该问题是:分析有 20 个主题的文本文件(新闻帖)。 在本章节中,我们会接触到如下内容: 加载文件内容和类别 抽取适合机器学习的特征向量 训练线性模型来拟合分类 使用网格搜索来寻找适合特征抽取和分类的参数配置 #开始 在开始该教程之前 ..
1.5K
8 年前
sklearn-统计机器学习教程
统计机器学习 随着面对的数据集规模的快速增长,机器学习技术越来越重要。其面对的问题从对不同的观测对象建立预测功能,转变为对观测底线分类或学习未打标签数据的结构。 该教程将探索统计学习,使用机器学习技术达到统计推断的目的:描绘手头数据的“外貌”。 scikit-learn 是一个实现了经典机器学习算法的模块。其紧密结合了 ..
4.7K
8 年前
简介:使用scikit-learn进行数据挖掘
该简介翻译自 An introduction to machine learning with scikit-learn。 选择翻译这篇简介的原因很简单: scikit-learn 是非常优秀的 python 机器学习库 该篇写得非常好,即使不使用 sklearn,也可以作为数据挖掘入门的短文。 以下是翻译的内容。 # ..
1.1K
7 年前
Spark mllib API- tree
spark 在 tree 这个模块中提供了 DecisionTree、RandomForest、GradientBoostedTrees 三种算法。均属于分类/回归 树模型。 三种算法均可用于回归预测。其中决策树和决策森林可用于二元或多元分类,GBT 只能用于二元分类。 随机森林和 GBT 均属于组合模型,解决模型过拟 ..
790
8 年前
Spark mllib API- regression
spark 在回归模块提供的算法有:LinearRegressionWithSGD,RidgeRegressionWithSGD,LassoWithSGD,IsotonicRegression,StreamingLinearRegressionWithSGD LinearRegression 是寻找线性关系 h(X) ..
605
5 年前
Spark mllib API- recommendation
协同过滤算法可以大致分为 3 种 base: 基于用户或基于物品的协同过滤(可见[链接]) 基于矩阵分解的协同过滤(ALS) 基于图的协同过滤 目前 spark 1.6.1 只提供 ALS 一种推荐算法 ##ALS ALS 是基于矩阵分解的协同过滤算法。其基本思想是通过矩阵分解的过程,交替使用最小二乘法计算,填充稀疏的 ..
936
8 年前
Spark mllib API- fpm
spark 在该模块中提供了两种发现频繁项的算法:FPGrowth 和 PrefixSpan。 ##FPGrowth spark 并行化的 FPGrowth 算法,用于挖掘频繁项。FPGrowth 算法基于 Apriori,采用 FP 树减少扫描数据集的次数。更多和 FPGrowth、Apriori 算法相关可看我的另 ..
574
8 年前
Spark mllib API- feature
spark 中大部分的向量转换采用训练(fit)-转化(transform)形式,因此会有对应的训练类和模型类。 该模块主要包括了,标准化、归一化、分词、特征选择 ##pyspark.mllib.feature.Normalizer(p=2.0) 使用 Lp 范式对样本进行归一化。 若 1<=p
985
8 年前
Spark mllib API- clustering
#mllib.clustering 聚类 更多聚类的相关知识可以查看我的另外一篇博客[链接] Spark 目前提供 KMeans、GaussianMixture、PowerIterationClustering、StreamingKMeans、LDA。 ##KMeans k 均值聚类 ###背景知识 KMeans 是无 ..
2.8K
8 年前
Spark mllib API- classification
Apark mllib API 的翻译 - 分类篇。 对官方文档进行翻译的同时加入了一些常识性知识。 更多分类的相关知识可以查看我的另外一篇博客[链接] Spark 当前提供 LogisticRegression、SVM、NaiveBayes。 ##LogisticRegression 逻辑回归 ###背景知识 Lin ..
886
8 年前
数据挖掘算法初窥门庭--协同过滤
协同过滤(CF)有两种 base: Memory-based: Model-based: 用户一般会喜欢与自己喜欢物品相似的物品。(item-based) 用户一般会喜欢与自己相似的其他用户喜欢的物品。(user-based) ##基于用户的协同过滤 一些网购网站的“看了该物品的用户还看了以下物品”,采用的是 user ..
366
8 年前
数据挖掘算法初窥门庭--分类/回归
数据挖掘算法中分类和算法经常放在一起,如 weka 中 Classify 包括了分类和回归。这两种方法都是通过对已知类别训练集的分析,从中发现规律,以此预测新数据的类别。简单来说,若是预测的类别为离散值则成为分类,若为连续值则成为回归。 分类/回归属于有监督学习,分为训练和预测两个过程(当然一般还会有模型的检验)。 训 ..
386
8 年前
数据挖掘算法初窥门庭--聚类
#聚类(Cluster) ##概念 什么是聚类: 按照个体或样品的特征将它们分类,使同一类别的个体具有尽可能高的同质性,而类别之间则应该具有尽可能高的异质性。 聚类的特点: 不是一种统计方法,而是数据处理技术;需要自定聚类变量以及类别个数,属于非监督的分析方法;一般不涉及有关统计量的分布;不需要进行显著性检验;聚类算法 ..
630
8 年前