机器学习方法——随机森林

定义

随机森林建立多个决策树并将它们合并在一起以获得更准确和稳定的预测。

实现方法

随机森林有两种实现方法：

数据的随机化：就是每一个树构建只利用随机抽取的部分数据，使得随机森林的决策树更普遍化；
- 有放回的采样可以保证不同子集的数量级一样（不同子集/同一子集之间的元素可以重复）。
待选特征的随机化：
- 在所有特征里随机选取部分特征；
- 在随机选取的特征里选取最优特征（由树的构建完成）。

特征的重要性

随机森林可以衡量每个特征对预测的相对重要性。一个特征被越多树使用说明这个特征越重要，通过查看特征的重要性，可以决定要放弃哪些特征（防止过拟合）。

随机森林和决策树的区别

决策树的特征选择使用信息增益或者基尼指数计算，随机森林是随机选择；
决策树可能会过深，导致过拟合，随机森林可以防止大部分过拟合，因为创建的都是小树。

随机森林的参数

n_estimators：树的数量，越多越稳定，但是速度回变慢；
max_features：每个树可以使用的最多特征，应该是为了防止过拟合；
max_depth：每个树的最大深度，应该也是为了防止过拟合；
min_samples_split：一个结点的分支想分割需要的最少样本，防止离群点对模型产生影响；
min_sample_leaf：一个叶子上需要的最小样本数，根上一个差不多。
其他的也都差不多...

优点

既可以用于分类，也可以用于回归；
容易查看特征的重要性；
易于实现，超参数较少，超参数最佳取值范围比较固定；
不容易过拟合；

缺点

树的数量太多时，算法变慢；
无法描述数据中的关系。

粒度是关键: 对神经机器翻译应用差分隐私的调查研究

在应用差分隐私(DP)保护个人数据时,选择合适的粒度至关重要。本文针对神经机器翻译(NMT)任务,深入研究了句子级和文档级两种粒度应用 DP 的效果,揭示了选择适当隐私粒度的重要性。研究背景与动机近年来,随着对个人隐私和数据泄露风险的日益关注,差分隐私在 NLP 领域的应用越来越广泛。然而,如何选择合适的隐私单元( ..

小样本学习 · Few-shot Learning，FSL

待完成的视频：论文解读合集：【CVPR 2021】小样本学习论文解读 | Few-Shot Classification with Feature Map..._哔哩哔哩_bilibili 王树森：Few-Shot Learning (1/3): 基本概念 (youtube.com) 概述描述 FSL旨在解决在训练 ..

机器学习 -KNN 算法原理 && Spark 实现

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

思源笔记比黑曜石好在哪里

思源笔记有一个黑曜石无论如何比不上的优点，我有一个五万 md 的笔记库，所有图片都是链接，没有任何附件，ob 不开插件打开这个库内存要 2gb 多，开插件直接奔着 3/4gb 去了，而且打开大 md 文件动不动就卡死，重建索引。这还让人咋 all in one… 思源打开内存只有六百左右，typora 更低一点，我是不 ..

请问购买了同步功能的账号可以免费使用一键转 Kmind 吗？

[图片] 点击转为 kmind，弹出这个界面，我是当时购买了一个可以实现用阿里云同步的账号，好像一次性费用 60 多元还是 80 多元？不知道激活码，忘记是怎么付费的了。请问可以免费使用一键转 Kmind 吗？

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于