首页 资讯正文

一种在人工智能数据集中减少性别偏见的方法

一种在人工智能数据集中减少性别偏见的方法

单词嵌入是一种将单词和短语映射到实数向量上的语言建模技术,也是自然语言处理的基础部分。它是机器学习模型如何“学习”上下文相似和单词接近的重要性,以及它们如何最终从文本中提取意义。只有一个问题:数据集往往倾向于表现出性别成见和其他偏见。并且可以预见的是,在这些数据集上训练的模型会收集甚至放大这些偏见。

为了解决这个问题,加利福尼亚大学的研究人员开发了一种新颖的培训解决方案,即“保留单词向量中的性别信息”,同时“强迫其他方面不受性别影响。”他们在一篇论文中描述了他们的模型。

“研究表明,从人类生成的语料库中学习的机器学习模型往往容易表现出社会偏见,例如性别刻板印象。”该团队写道。“例如,‘程序员’这个词的定义与性别无关,但是在新闻语料库上训练的嵌入模型将”程序员“与”男性“更接近”男性“而非”女性“。这种偏见会对下游应用程序产生重大影响。“

他们的学习方案被称为“GN-GloVe”,既能识别中性词语,又能同时学习词汇。这个团队声称它比以前的方法更优越,因为它可以应用于任何语言,不会从单词中删除任何性别信息,并且排除了单词被错误分类和影响模型性能的可能性。

与GloVe和Hard-GloVe(两种常用模型)相比,GN-GloVe对新注释的数据集中的性别刻板词非常敏感。虽然GloVe的定型词如“医生”和“护士”,但GN-GloVe却没有。此外,它总体上表现出较少的偏见——在研究人员的测试中,GloVe倾向于将职业与特定的性别联系在一起,GN-GloVe的偏差减少了35%。

在未来,该团队计划扩展该方法以模拟其他单词属性,例如情绪。

偏见问题

从广义上讲,有偏见的数据集困扰着人工智能研究的所有领域。

今年7月《华盛顿邮报》委托进行的一项研究显示,亚马逊和谷歌制造的智能音箱比非母语音箱的非美国音调低30%。此外,IBM和微软等公司使用的用于衡量语音模型错误率的数据集“Switchboard”等语料库也显示出了明显的偏向于该国特定地区用户的倾向。

它不仅限于语言。 2012年发表的一项研究表明,供应商Cognitec的面部算法在非裔美国人身上的表现要比白种人差5%至10%。据透露,伦敦警察厅部署的系统每次击中都会产生多达49个假匹配。

到目前为止,还没有消除偏见的灵丹妙药。但是这些论文,除了来自微软、IBM、埃森哲、Facebook和其他公司的自动偏见检测工具,都是令人鼓舞的进步迹象。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:https://www.chinaai.com/zixun/14601.html

发表评论

评论列表(0人评论 , 11791人围观)
☹还没有评论,来说两句吧...