粒度是关键: 对神经机器翻译应用差分隐私的调查研究

在应用差分隐私(DP)保护个人数据时,选择合适的粒度至关重要。本文针对神经机器翻译(NMT)任务,深入研究了句子级和文档级两种粒度应用 DP 的效果,揭示了选择适当隐私粒度的重要性。

研究背景与动机

近年来,随着对个人隐私和数据泄露风险的日益关注,差分隐私在 NLP 领域的应用越来越广泛。然而,如何选择合适的隐私单元(如句子、文档等)往往被忽视。

以神经机器翻译为例,通常采用句子级粒度。这种做法假设每个句子属于单个个体,任意两个句子是独立的。但在现实世界的对话数据集中,这一假设往往不成立。

因此,为了正确应用 DP,我们需要从句子级转向文档级粒度。本研究旨在比较这两种粒度下应用 DP 的效果,分析隐私保护与效用之间的权衡,并评估使用不当粒度可能带来的个人身份信息(PII)泄露风险。

研究方法

研究团队提出了一种在文档级应用 DP 的新方法,利用 DP-NMT 框架和 mLongT5 模型。主要研究内容包括:

  1. 比较句子级和文档级两种粒度下,应用 DP 对 NMT 系统性能的影响。
  2. 通过成员推断攻击(MIA),评估使用不当隐私粒度可能带来的风险。
  3. 提出一种评估个人身份信息(PII)泄露的方法。

实验使用了两个数据集:

  • BSD (Business Scene Dialogue):日英平行对话语料库
  • MAIA (Multilingual AI Agent Assistant):德英客户支持对话语料库

主要发现

  1. 文档级 NMT 系统对隐私预算(ε)非常敏感,较小的 ε 值会显著影响性能。研究建议先在大型非敏感数据集(如 WMT22)上训练文档级 NMT 系统,再在下游数据集上进行 DP 微调,以实现更好的隐私-效用平衡。
  2. 基于损失的成员推断攻击(MIA)结果表明,文档级 NMT 系统比句子级系统更能抵御此类攻击,这凸显了选择合适粒度的重要性。
  3. PII 泄露评估结果显示,文档级模型在应用 DP 后 PII 泄露比例为 0,而句子级模型在 ε=∞ 时 PII 泄露比例约为 0.80,ε=10 时仍有 0.40 的泄露比例。

结论与启示

  1. 在 NMT 任务中应用 DP 时,选择文档级粒度比句子级粒度能提供更好的隐私保护。
  2. 文档级模型在应用 DP 后,虽然翻译质量会受到一定影响,但通过预训练和适当的隐私预算设置,可以实现较好的隐私-效用平衡。
  3. 研究强调了在处理涉及个人隐私的 NLP 任务时,选择合适隐私粒度的重要性,为未来相关研究提供了新的思路。

本研究对于如何在保护隐私的同时保持 NLP 模型性能提供了重要启示,对推动隐私保护 NLP 技术的发展具有重要意义。

未来研究方向

  1. 设计更好的成员推断攻击方法,考虑 NLP 数据集的相关性特征。
  2. 在更大规模、更长文本的数据集上进行实验验证。
  3. 进一步研究数据相关性如何影响隐私保证。
  4. 探索其他 NLP 任务中应用 DP 的最佳粒度选择。

参考文献

  1. Vu, D. N. L., Igamberdiev, T., & Habernal, I. (2024). Granularity is crucial when applying differential privacy to text: An investigation for neural machine translation. arXiv preprint arXiv:2407.18789.
  2. Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., & Zhang, L. (2016). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 308-318).
  3. Igamberdiev, T., & Habernal, I. (2023). DP-NMT: Differentially Private Neural Machine Translation. arXiv preprint arXiv:2306.11958.
  4. Yeom, S., Giacomelli, I., Fredrikson, M., & Jha, S. (2018). Privacy risk in machine learning: Analyzing the connection to overfitting. In 2018 IEEE 31st Computer Security Foundations Symposium (CSF) (pp. 268-282). IEEE.
  5. Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020). Bertscore: Evaluating text generation with bert. arXiv preprint arXiv:1904.09675.
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...