熟悉算法 --bagging & boosting

相同点：

都是将已有的分类器或回归算法通过一定的方式组合起来，形成一个功能更强大的分类器。说白了就是组装弱分类器，形成强分类器。

下面先分别介绍

Bagging (Boostrap aggregating)

套袋法，过程如下：

从原始的 N 个样本中，有放回的抽取 K轮，每轮抽取 n(n<=N)个样本（因为有放回，所以可能重复），得到 k 个训练样本集
用 k 个训练集可以训练 k 个独立的分类器 (模型)
整体的分类结果由 k 个模型投票决定，回归问题取平均

Boosting

主要思想：将弱分类器组合成强分类器，在 PAC（概率近似正确）的学习框架下 [?!]，一定可以将弱分类器组合成强分类器。

两个问题：

如何改变训练数据的权值或概率分布？
在每一轮训练中，提高被弱分类器误分类的样本的权值，降低正确分类的样本的权值，从而提高模型对误分样本的识别效果？这里的误分应该指的是实际上是 TP/TN，却被识别错了？所以要增强权值，使其能够被正确分类？以提高后续分类过程中的识别效果。
怎么组合弱分类器？
加法模型线性组合
AdaBoost 通过加权表决的方式，增大错误率小的分类器的权值，减小错误率大的分类器权值
提升树通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型

整体来说二者的区别如下：

	Bagging	Boosting
样本选择	在原始集中有放回的选取训练集，训练集相互独立	每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
样例权重	均匀取样，每个样例的权重相等	根据错误率不断调整样例的权值，错误率越大则权重越大
预测函数	所有预测函数的权重相等	每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重
并行计算	各个预测函数可以并行生成	各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果

all:
整合的方式不一样，结果也不一样。总体来说会提高准确率，但是计算量会更大。

几个例子：

Bagging + 决策树 = 随机森林
AdaBoost + 决策树 = 提升树
Gradient Boosting + 决策树 = GBDT

探索整理笔记的方法时找到了相关的国标文件

分类参考 :: 关于整理笔记这件事吧，显然一直不整理不合适。最近看的内容都倾向于面向主题（或者说目的？）整理，比较类似苏轼的八面受敌读书法（带着目的，就知道自己想要的是什么,才可以对资料有所取舍，专注一道反复几次，吸收效率才高）。最近也在有意识地尝试用 MOC 进行主题学习，用 scapple 简单绘制图形 MOC ..

K 近邻算法 (KNN)

K近邻算法（KNN，K-NearestNeighbor）是一种十分简单的分类方法，也是“懒惰学习”的代表。 KNN 没有训练阶段，或者说训练成本为 0。KNN 只需要将已知的样本拿过来与需要测试的样本做一个简单的比较就能将未分类的样本分类。 KNN 的算法流程也十分简单，大致的思路就是，计算待测点与已知点的距离，选取与 ..

支持向量机 (SVM)，序列最小优化算法 (SMO)

支持向量机(Support Vector Machine)由V.N. Vapnik，A.Y. Chervonenkis，C. Cortes 等在1964年提出。序列最小优化算法（Sequential minimal optimization）是一种用于解决支持向量机训练过程中所产生优化问题的算法。由John C. Pl ..

关于 solo 分类

使用最多的也就是分类了，便于查找，所有知识分类储存， [图片] 不知道这个怎么设置 [图片] 这个 yilia 皮肤感觉也是超好看，但是没有分类这个选项，心塞后端的我根本不知道如何下手，有大神指导咋添加吗，另外那个分类管理添加的 url 那里是啥？一脸懵，呜呜

熟悉算法 -- 感知机

感知机感知机是神经网络和支持向量机的基础。本节主要涉及到模型的基本定义学习策略学习算法，收敛性包括线性可分和线性不可分两种，一般只讨论线性可分的情况。确认好基本的模型形式，然后选择损失函数，思路是使得所有误分类点到分类超平面的距离之和最小，直至为 0。稍微具体点的思路在节末的图片中描述了。再通过随机梯度 ..

设计一个分类功能

设计一个分类功能该功用于行政区域划分，商品分类，等等例如中国-> 广东-深圳 ..... 要求：无限极分类，层次深度不限快速检索，不能使用递归只能使用一个数据库表实现可以生成树形目录抛砖引玉（不满足第一条需求其他都满足） id pid name id_str 1000 0 商品 0 1001 1 ..

数据挖掘算法初窥门庭--分类/回归

数据挖掘算法中分类和算法经常放在一起，如 weka 中 Classify 包括了分类和回归。这两种方法都是通过对已知类别训练集的分析，从中发现规律，以此预测新数据的类别。简单来说，若是预测的类别为离散值则成为分类，若为连续值则成为回归。分类/回归属于有监督学习，分为训练和预测两个过程（当然一般还会有模型的检验）。训 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

熟悉算法 --bagging & boosting

Bagging (Boostrap aggregating)

Boosting

相关帖子

探索整理笔记的方法时找到了相关的国标文件

K 近邻算法 (KNN)

支持向量机 (SVM)，序列最小优化算法 (SMO)

关于 solo 分类

熟悉算法 -- 感知机

设计一个分类功能

数据挖掘算法初窥门庭--分类/回归

欢迎来到这里！

近期热议

推荐标签标签

最新标签

熟悉算法 --bagging & boosting

Bagging (Boostrap aggregating)

Boosting

相关帖子

探索整理笔记的方法时找到了相关的国标文件

K 近邻算法 (KNN)

支持向量机 (SVM)，序列最小优化算法 (SMO)

关于 solo 分类

熟悉算法 -- 感知机

设计一个分类功能

数据挖掘算法初窥门庭--分类/回归

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签