信息保留：学习补充特征的创新之道

在现代机器学习的世界中，如何有效地从数据中提取信息，成为了一个至关重要的问题。近年来，信息瓶颈（Information Bottleneck，IB）原则的提出，强调了在预测过程中忽略冗余信息的重要性。然而，来自复旦大学的研究者 Zhipeng Xie 和 Yahe Li 在最近的论文中提出了一种全新的思路——信息保留（Information Retention）原则，主张在监督学习中尽可能保留相关信息。这一观点不仅挑战了现有的理论框架，也为机器学习的实践提供了新的思路。

信息保留的理论基础

信息保留的核心思想是，在进行预测时，尽量保留尽可能多的相关信息。这与信息瓶颈原则形成鲜明对比，后者强调压制冗余特征，尽量简化输入信息。为了阐明这一概念，研究者们通过一个简单的例子进行了说明：假设我们有一个训练任务，其中标签 $y$ 可以通过特征 $f_{1} = x_{1} + x_{2}$ 完全预测，而 $f_{2} = x_{3}$ 和 $f_{3} = x_{4}$ 则只能部分预测。尽管 $f_{2}$ 和 $f_{3}$ 的使用不会提升预测的能力，但在测试阶段，考虑到未见过的 $f_{1}$ ， $f_{2}$ 和 $f_{3}$ 的存在能够有效处理潜在的情况。

InfoR-LSF 框架的设计

为了解决信息保留的问题，Xie 和 Li 提出了一个名为 InfoR-LSF 的三阶段框架。该框架的设计初衷是通过学习补充特征，实现信息的有效保留。

第一阶段：主特征的初步训练

在这一阶段，主要目标是训练初始主特征 $z_{M}$ 。通过最大化 $z_{M}$ 和标签 $y$ 之间的互信息，研究者们希望建立一个强有力的预测基础。同时，可以选择最小化 $z_{M}$ 和输入 $x$ 之间的互信息，以进一步提升模型的表现。

第二阶段：显著性特征的去除

第二阶段的目标是识别并去除与主特征 $z_{M}$ 相关的显著输入特征。这一过程通过计算损失相对于输入的梯度大小来确定输入特征的重要性。具体而言，研究者们采用了 MASK 操作，对原始输入 $x$ 进行修改，从而得到新的输入 $x^{'}$ 。对于文本数据来说，可以通过用 MASK 替换某些标记来实现，而对于图像数据，则可能需要删除某些图像块。

第三阶段：主特征与补充特征的联合训练

在最后阶段，目标是同时学习主特征 $z_{M}$ 和补充特征 $z_{S}$ 。这一阶段的训练目标包括最大化主特征的互信息，同时抑制补充特征 $z_{S}$ 中与 $x^{'}$ 可预测的信息。

互信息基础的损失函数

为了在实际中计算上述优化目标，研究者们引入了变分编码网络，用于编码主特征 $z_{M}$ 和补充特征 $z_{S}$ 。通过假设 $z$ 服从参数化的高斯分布，研究者们能够计算 Kullback-Leibler（KL）散度，并进一步估计互信息的上下界。

具体而言，研究者们的目标是最大化以下目标函数：

max I (z_{M}; y) - β \cdot I (z_{M}; x)

其中， $r_{ϕ} (z_{M}) \sim N (μ_{ϕ}, Σ_{ϕ})$ 表示主特征的先验分布。

实验与结果

在实验部分，研究者们在多个数据集上进行了评估，包括图像分类、文本分类、文本回归和表格回归任务。他们的实验结果显示，InfoR-LSF 在所有设置下都优于竞争对手，尤其在低资源条件下，展现了显著的改进。此外，该方法还能够适应多种不同的数据类型，表现出色。

图表展示

以下是实验结果的简要总结：

任务类型	InfoR-LSF	竞争方法
图像分类	优于所有竞争对手	IFM, FGSM, VIB
文本分类	显著提升	VIBERT
回归任务	良好适应

结论

Xie 和 Li 的研究为监督学习提供了一个全新的视角，即通过信息保留原则和 InfoR-LSF 框架，最大限度地利用相关信息，从而提升模型的预测能力。随着机器学习领域的不断发展，信息保留的理念势必将在未来的研究中扮演重要角色。

参考文献

Alemi, A. A., Fischer, I., Dillon, J. V., & Murphy, K. (2017). Deep variational information bottleneck. In ICLR.
Xie, Z., & Li, Y. (2024). Information Retention via Learning Supplemental Features. ICLR.
信息瓶颈理论与应用。
机器学习中的互信息测度。
监督学习的最新进展与挑战。

通过这种方式，本文不仅清晰地概述了信息保留原理及其在学习补充特征中的应用，同时也为读者提供了深入理解这一领域的基础知识。

粒度是关键: 对神经机器翻译应用差分隐私的调查研究

在应用差分隐私(DP)保护个人数据时,选择合适的粒度至关重要。本文针对神经机器翻译(NMT)任务,深入研究了句子级和文档级两种粒度应用 DP 的效果,揭示了选择适当隐私粒度的重要性。研究背景与动机近年来,随着对个人隐私和数据泄露风险的日益关注,差分隐私在 NLP 领域的应用越来越广泛。然而,如何选择合适的隐私单元( ..

小样本学习 · Few-shot Learning，FSL

待完成的视频：论文解读合集：【CVPR 2021】小样本学习论文解读 | Few-Shot Classification with Feature Map..._哔哩哔哩_bilibili 王树森：Few-Shot Learning (1/3): 基本概念 (youtube.com) 概述描述 FSL旨在解决在训练 ..

机器学习 -KNN 算法原理 && Spark 实现

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

在思源笔记里免费用上 DeepSeek R1 大模型

作为深度使用思源笔记的知识管理爱好者，今天要向大家安利一个重磅福利！通过硅基流动大模型平台（点击直达），我们可以直接在思源笔记中免费调用 DeepSeek R1 大模型，让 AI 助手深度融入你的工作流！我的专属推荐入口（注册即赠送 100 万 token） https://cloud.siliconflow.cn/ ..

Mongo 进阶 - WT 引擎：Page 生命周期 | Java 全栈知识体系

通过前文我们了解到数据以 page 为单位加载到 cache; 有必要系统的分析一页 page 的生命周期、状态以及相关参数的配置，这对后续 MongoDB 的性能调优和故障问题的定位和解决有帮助。@pdai Mongo 进阶 - WT 引擎：Page 生命周期为什么要了解 Page 生命周期 Page 的生命周期 ..

代码片段自动更新协议 1.0

鉴于代码片段无法检查更新，写了个自动检查更新的代码片段。只要用户安装了用户端代码片段或开发者加入了开发者端代码，且开发者代码片段中遵循以下协议即可。协议内容要让你的代码片段能自动检查更新，需遵循以下协议：代码片段的注释中必须有 name，version，updateUrl 三个标记。比如 // name 代码 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于