评估LLM标注可靠性：人口偏见与模型解释

原创

用户11764306

发布于 2025-08-07 09:26:49

2370

摘要

理解标注变异性的来源对开发公平的NLP系统至关重要，尤其在性别歧视检测等涉及人口偏见的问题中。本研究通过广义线性混合模型量化标注者人口特征与文本内容对标注决策的影响，发现人口因素仅占方差变异的8%，文本内容仍是主导因素。进一步评估生成式AI（GenAI）模型作为标注工具的可靠性，发现简单的人口角色提示往往无法提升甚至可能降低其与人类判断的一致性。可解释AI（XAI）技术显示，模型预测主要依赖与性别歧视相关的内容特征词，而非人口特征关联词。

核心发现

人口特征影响有限：标注者性别、年龄等人口属性虽具有统计显著性，但对标注变异的解释力较弱（8%），文本内容解释力超90%。
生成式AI标注评估：
- 为GenAI模型添加人口角色提示（如"以年轻女性视角标注"）未显著提升标注质量，部分场景下性能反而下降。
- 基线模型（无角色提示）在多数任务中表现更稳定。
可解释性分析：
- 模型注意力机制集中于显性性别歧视词汇（如"厨房"、"柔弱"），而非隐含人口特征的词汇（如人名、地域）。
- LIME和SHAP等XAI工具验证了模型决策的内容驱动特性。