公平性可以通过多种不同方式定义,存在许多不同的形式概念,如人口统计均等、机会均等和几率均等。公平性概念背后的基本共同思想是,学习到的机器学习模型无论应用于一个群体子组(如男性)还是另一个群体子组(如女性),都应该表现出等同或至少相似的行为。
例如,人口统计均等可以说是最常见的公平性概念,它要求机器学习模型产生特定输出的概率(如决定发放贷款)不应依赖于特定人口统计属性(如性别、种族或年龄)的值。
当前关于算法公平性的文献主要可以分为三种方法:
我们决定探索和分析可能的技术,使机器学习算法能够学习更公平的模型。我们从统计学习理论的基础概念出发,特别是经验风险最小化理论。经验风险最小化的核心概念是,模型在测试数据上的性能可能无法准确预测其在现实世界数据上的性能,因为现实世界数据可能具有不同的概率分布。
我们将这一概念扩展到机器学习模型的真实公平性风险和经验公平性风险。
本文提出了一种新的过程中处理方法,将公平性约束纳入学习问题中。我们推导了关于结果模型准确性和公平性的理论保证,并展示了如何将我们的方法应用于包括线性模型和支持向量机在内的大量机器学习算法家族。
在本文中,我们考虑了机器学习模型学习回归函数的情况。我们提出了一种后处理方法,用于将实值回归函数转换为满足人口统计均等约束的函数。特别是,新的回归函数在满足约束的同时尽可能好地近似原始函数,使其成为最优的公平预测器。
我们建立了学习公平回归模型与最优传输理论之间的联系,并推导了最优公平预测器的闭式表达式。
本文涉及深度学习,展示了如何在多任务学习设置中改进人口统计均等性。我们提出了一种学习算法,该算法基于两种不同的概率分布距离度量方法施加约束:最大均值差异和Sinkhorn散度。保持这个距离较小可以确保当输入仅在敏感属性上不同时,我们以相似的方式表示它们。
算法公平性是一个极其重要的主题,对许多应用都有影响。在我们的工作中,我们试图迈出一小步,但这个问题需要更多的进一步研究;即使是"对机器学习模型来说什么是公平的"这个定义,仍然是一个开放的研究问题。
越来越明显的是,我们需要在机器学习模型的生命周期中保持人类参与,以评估模型是否按照我们的期望行事。在这个意义上,重要的是要注意许多其他研究主题——如机器学习模型的可解释性、可说明性和隐私性——与算法公平性密切相关。它们可以协同工作,共同提高机器学习模型的可信度。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。