粒度是关键: 对神经机器翻译应用差分隐私的调查研究

在应用差分隐私(DP)保护个人数据时,选择合适的粒度至关重要。本文针对神经机器翻译(NMT)任务,深入研究了句子级和文档级两种粒度应用 DP 的效果,揭示了选择适当隐私粒度的重要性。

研究背景与动机

近年来,随着对个人隐私和数据泄露风险的日益关注,差分隐私在 NLP 领域的应用越来越广泛。然而,如何选择合适的隐私单元(如句子、文档等)往往被忽视。

以神经机器翻译为例,通常采用句子级粒度。这种做法假设每个句子属于单个个体,任意两个句子是独立的。但在现实世界的对话数据集中,这一假设往往不成立。

因此,为了正确应用 DP,我们需要从句子级转向文档级粒度。本研究旨在比较这两种粒度下应用 DP 的效果,分析隐私保护与效用之间的权衡,并评估使用不当粒度可能带来的个人身份信息(PII)泄露风险。

研究方法

研究团队提出了一种在文档级应用 DP 的新方法,利用 DP-NMT 框架和 mLongT5 模型。主要研究内容包括:

比较句子级和文档级两种粒度下,应用 DP 对 NMT 系统性能的影响。
通过成员推断攻击(MIA),评估使用不当隐私粒度可能带来的风险。
提出一种评估个人身份信息(PII)泄露的方法。

实验使用了两个数据集:

BSD (Business Scene Dialogue):日英平行对话语料库
MAIA (Multilingual AI Agent Assistant):德英客户支持对话语料库

主要发现

文档级 NMT 系统对隐私预算(ε)非常敏感,较小的 ε 值会显著影响性能。研究建议先在大型非敏感数据集(如 WMT22)上训练文档级 NMT 系统,再在下游数据集上进行 DP 微调,以实现更好的隐私-效用平衡。
基于损失的成员推断攻击(MIA)结果表明,文档级 NMT 系统比句子级系统更能抵御此类攻击,这凸显了选择合适粒度的重要性。
PII 泄露评估结果显示,文档级模型在应用 DP 后 PII 泄露比例为 0,而句子级模型在 ε=∞ 时 PII 泄露比例约为 0.80,ε=10 时仍有 0.40 的泄露比例。

结论与启示

在 NMT 任务中应用 DP 时,选择文档级粒度比句子级粒度能提供更好的隐私保护。
文档级模型在应用 DP 后,虽然翻译质量会受到一定影响,但通过预训练和适当的隐私预算设置,可以实现较好的隐私-效用平衡。
研究强调了在处理涉及个人隐私的 NLP 任务时,选择合适隐私粒度的重要性,为未来相关研究提供了新的思路。

本研究对于如何在保护隐私的同时保持 NLP 模型性能提供了重要启示,对推动隐私保护 NLP 技术的发展具有重要意义。

未来研究方向

设计更好的成员推断攻击方法,考虑 NLP 数据集的相关性特征。
在更大规模、更长文本的数据集上进行实验验证。
进一步研究数据相关性如何影响隐私保证。
探索其他 NLP 任务中应用 DP 的最佳粒度选择。

参考文献

Vu, D. N. L., Igamberdiev, T., & Habernal, I. (2024). Granularity is crucial when applying differential privacy to text: An investigation for neural machine translation. arXiv preprint arXiv:2407.18789.
Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., & Zhang, L. (2016). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 308-318).
Igamberdiev, T., & Habernal, I. (2023). DP-NMT: Differentially Private Neural Machine Translation. arXiv preprint arXiv:2306.11958.
Yeom, S., Giacomelli, I., Fredrikson, M., & Jha, S. (2018). Privacy risk in machine learning: Analyzing the connection to overfitting. In 2018 IEEE 31st Computer Security Foundations Symposium (CSF) (pp. 268-282). IEEE.
Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). Bertscore: Evaluating text generation with bert. arXiv preprint arXiv:1904.09675.

小样本学习 · Few-shot Learning，FSL

待完成的视频：论文解读合集：【CVPR 2021】小样本学习论文解读 | Few-Shot Classification with Feature Map..._哔哩哔哩_bilibili 王树森：Few-Shot Learning (1/3): 基本概念 (youtube.com) 概述描述 FSL旨在解决在训练 ..

机器学习 -KNN 算法原理 && Spark 实现

机器学习-KNN 算法原理 && Spark 实现不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型 > 实时 > 离线数仓 >ETL 工程师 >BI 工程师（不喜勿喷哈），现在做 ..

集市内容不更新就看不到更新的版本和更新的内容，这个操作不太方便

集市更新需要点了更新，才能看到最新版的更新内容，这个是特性吗？应该能直接看到最新版的描述然后再选择是否更新会合理一点吧好像之前都是能直接看到最新的版本号和更新描述的 [图片]

QYL 佬简直是神……

感谢每一个快速响应的开发者大佬我是昨天才开始用思源笔记的小白，正好看到论坛推荐 QYL 佬的主题就在集市里下载了。使用了一下发现底部悬浮状态栏会挡住视频播放插件的一部分，于是就到 github 反馈了，没想到今天就解决了太快速了 [图片] [图片]

请问有没有办法快速复制某个特定标题下的内容？

很多内容都放在一个文档里，用不同的标题分化，但是每个标题下的内容大约 2000 多字，电脑上复制只能用鼠标慢慢滑，有没有快一点的办法？还有就是移动端怎么同时复制多个“块”的内容？

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于