在IMA杂志中,有篇文章论述的是关于数据偏见对多样化与包容性的影响,观后小跃君感触很深,今天就和大家分享一下吧。


多样化与包容性日益受到人们的关注,且已然成为社交媒体和新闻讨论的焦点。在各类企业与组织收集、分析和运用数据驱动决策的同时,多样化与包容性也是高管和董事会讨论的中心议题。


然而在此过程中有一个后果经常被忽视,那就是可能会对多样化与包容性产生负面影响的数据偏见。财会专业人士与所有行业的企业专业人士,都有责任确保以推动无偏见决策的方式来使用数据。


首先我们先来了解一下何为数据偏见,偏见的英文“bias”由法语biais衍生而来,本义是指一条斜线或者与水平线的偏离,常常用来形容对特定人群的系统性偏好。数据偏见是一种风险,即会影响一个人基于数据的决策,而这些数据更有利或更不利于某一特定人群。


那么,为什么会出现数据偏见呢?


数据偏见虽然有多种不同类型,但两种*常见的类型是选择偏见(selection bias)与预带偏见的偏见(prejudicebias)。


当选择的数据因缺乏必要的随机性而不能公正地代表整体时,就出现了选择偏见。预带偏见的偏见因自动化偏见所致,依照M.L.Cummings的定义,自动化偏见是“依据计算机生成的、被认为是正确的解决方案,而忽视或不再搜寻矛盾信息的一种倾向”(bit.ly/37pjrfT)。


数据生命周期


偏见可能发生在数据生命周期的不同阶段。例如,数据偏见可能会因设计师或开发者有意识或无意识的偏见而产生,也可能会因所使用的数据集本身存在偏见而导致。在另一些例子中,数据集并没有明显的偏见,但在其选择或重点方面却有失公允。


数据生命周期涉及以下几个阶段:


1.数据采集是企业运用数据的*步,即通过数据输入或经由数据入口、连接设备或物联网获取数据。


2.数据维护是使用一组预定义的规则来转换并运用数据,评估数据的质量及完整性。


3.数据合成通常称为“分析建模”,通过运用逻辑或使用其他数据输入来合成数据,创造更多价值。


4.数据运用是将转换后的数据应用到内部管理报告中,帮助企业做出良好的商业决策。


5.数据发布是创建外部报告,并向企业外部发布信息。


6.数据归档将处于主动状态的数据转换为被动状态,以便根据需要对其进行检索和再利用。


7.数据清除是从企业中删除数据(及其拷贝)。


这一数据生命周期可在产生偏向性结果之前指导专业人员识别并减少数据偏见。前文提到的亚马逊公司案例发生在数据采集和数据维护阶段,因为该数据采集了过去10年间投递给该公司的大量简历,其中大多数来自于男性。而COMPAS则是在数据运用阶段出现的偏见,开发该系统的Northpointe公司运用了一种由增加假负例(即被不公正地归类为可能再次犯罪的人)来优化真正例(即*有可能再次犯罪的人)的逻辑。


尽可能减少数据偏见


要减少有偏见的结果以及更好地进行决策,拥有公正无偏见的数据是必要条件。所以,企业应当在数据生命周期的早期阶段采集更具多样化和包容性的数据集,并审查数据的质量。


那些希望减少使用带偏见数据的企业应当:


1.拥有更多样化的员工队伍,使公司能够预测、发现和审查不公平的偏见问题,更好地融入易受偏见影响的社区。


2.接收多样化人群对结果的反馈,以便在采集到的数据中更好地发现那些未意识到的偏见。多样化人群有助于减少数据生命周期中的偏见,从而*终减少带偏见的结果


大数据在快速促进社会进步。然而,随着科技的飞速发展,正确使用数据的责任也越来越大。


企业日益希望更多地使用大型数据集和自动化系统来改进工作流程,因此,审查数据采集方式并积*减少偏见也变得越来越重要。这首先需要在招聘中运用*实践,以确保分派到项目的团队尽可能具有多样化和包容性,并得到了解数据偏见相关风险的管理层自上而下的支持。我们鼓励采取综合性的方法,就偏见的类型与减少偏见的*实践进行定期交流与持续教育。


随着社会在科技方面不断进步,我们需要记住的是,技术无法基于有偏见的数据产出无偏见的结果,它理应用来减少而非增加人类的偏见。


                                           免责声明:本文来自IMA杂志,转载目的重在分享,如有侵权请及时联系删除