全球南方视角下的可解释人工智能

在过去五年中,十多个国际机构强调人工智能 (AI) 系统的输出必须具有可解释性。经济合作与发展组织 (OECD) 的《人工智能原则》是影响全球人工智能政策的首批有影响力的国际准则之一。1 在五项基于价值观的原则中,OECD 的《透明度和可解释性原则》位列第三,该原则规定了人工智能系统的透明度和负责任的披露,以确保人们在与人工智能系统互动时能够理解,并可以质疑相关结果。这一分析在可解释性概念上更为广泛,不仅试图考虑系统的技术理解能力,还试图考虑人工智能系统在社会中的更广泛运作方式,以及受影响的参与者在更广泛的社会背景下理解、接受和信任这些人工智能系统结果的能力。

本文探讨了如何从非洲背景中观察到的一些下属命题中受益于可解释人工智能概念的实现。一个主张是让人类充当 AI 解释者,类似于格里奥或助产士,他们可以为这项技术提供文化背景化且易于理解的解释。另一个主张是将可解释性建模为一种生成性练习,使用户能够根据自己的语言定制解释,并以本地方言和熟悉的语言表达方式进行交流。通过承认人权和相关的隐私和集体身份规范,可解释性不仅可以使个人理解受益,还可以使整个社区受益。

国际上推动 AI 可解释性的部分原因是希望让世界各地的用户和利益相关者了解 AI 系统如何做出决策,这对于培养信任和责任感至关重要。例如,如果一个有助于根据医学图像诊断疾病的 AI 系统可以通过突出显示导致其结论的 X 光片区域来解释其推理,那么医生就可以对导致诊断的因素进行健全性检查,看看这些结论是否合理。在能够更好地评估这些系统的准确性(由于其复杂的技术性质,准确性往往不透明)的情况下,患者可能对使用人工智能更有信心。

此外,可解释的人工智能对于监管合规、系统改进和有效风险管理也具有重要意义(仅举几个有益的目的)。这些潜在的好处可以解释为什么可解释的人工智能在国家、地区和国际机构中获得规范影响力。当今,大多数人工智能原则和框架都将可解释性视为使人们能够理解人工智能应用程序在其各个领域如何开发、训练、操作和部署的理由。2

然而,存在两个可能的挑战。一是缺乏明确性(或共识),无法确定什么是真正可解释的人工智能系统。这些人工智能系统是否必须满足共同的标准或基准?谁为谁设定它们?缺乏对可解释人工智能的明确描述和普遍认可的标准可能表明监管格局分散,这可能会使可解释性的评估复杂化,并引发人们对这些人工智能系统如何满足各种利益相关者需求的质疑。但目前尚不清楚全球商定的可解释性标准是净正面还是负面。缺乏这种通用标准是否就不能为多元主义和文化相对主义留下空间,而这些方法在当地环境中可能更有共鸣?尽管如此,确保可解释性对全球多数国家和少数国家的所有用户(从开发人员到最终用户)都有意义且易于理解仍然是一个挑战。

第二个可能的挑战是,

鼓励可解释人工智能的主流政策处方往往植根于西方观点。虽然这些处方无疑很有帮助,但它们在下属文化和背景环境中的适用性有限。例如,根据 OECD 的要求,人工智能参与者需要提供适合特定情境的有意义的信息(以及作为人工智能决策基础的逻辑),用于评估信用度的人工智能系统可能需要考虑不同领域的不同经济结构和对金钱的文化态度。3 在现金交易比信贷更常见的社会中,系统的解释可能不相关或难以理解,从而阻碍此类社会中的最终用户理解人工智能系统如何与他们的财务现实互动。更重要的是,需要这样的工具来解释其决策信息在不同情况下可能看起来不同,并且这种解释应该突出对模型行为至关重要的内容,以便人们评估与给定结果相关的特殊输入、特征或属性。

我在撒哈拉以南非洲遇到的所有用于评估信用度的人工智能工具都无法解释通过参与 chama 所表现出的金融可靠性和信用度,chama 是肯尼亚(和东非)流行的传统非正式储蓄和借贷团体,成员定期捐款并将汇集的资金用于各种用途。4 人工智能系统对此类当地金融实践的认识存在差距,这意味着需要更具文化意识的人工智能模型,因为如果没有这种认识,它们的功能可能会受损。但说到可解释性,应该从一开始就提到模型训练和应用的主导背景,无论这些特征有多普遍。个人信用系统可能很常见,因此解释此类信用相关人工智能系统训练的主流金融文化可能被认为是基本的,但它们可能会为其他地区依赖易货系统、商品货币或 chama 等的人提供重要的背景信息。

必须认识到,一些非洲国家与全球南方其他地区一样,往往没有开发先进人工智能系统所需的大量资源,因此严重依赖全球北方技术更先进的国家开发的人工智能软件。这种动态将非洲国家置于消费者的地位,使用人工智能工具,而这些工具的发展背景并不一定与他们自己当地的文化、道德和社会传统的细微差别相一致。西方国家认识到非洲市场尚未开发的潜力,热衷于提供人工智能技术,这种安排暗中鼓励了一种技术依赖。因此,非洲国家和全球北方的人工智能开发者之间必须进行对话,以帮助促进对可解释人工智能的共同理解和共同贡献。

从全球南方的角度看人工智能

本文希望提供的全球南方视角试图利用在该地区工作的非洲研究人员的观点,他们希望对人工智能可解释性的功能、目的和意义提供一些不同的评估。在我博士研究的实地考察期间,我在撒哈拉以南的非洲国家(主要是西非的尼日利亚、东非的肯尼亚和非洲大陆南部的南非)连续呆了 20 个月。我的研究调查了人工智能在该地区是如何合法化的,以及它如何帮助解决该地区人权活动家面临的合法化危机。在这里采用全球南方视角意味着提供一种替代的叙述,这种叙述通常不在可解释的人工智能话语的主流中。 “全球南方”一词本身可能是一个过时的术语,暗示着世界各地区之间过于简单的二分法,5 但从理论上讲,它在这里被用来为人工智能的可解释性做出一些次要贡献,并倡导对可解释人工智能的包容性评价,以容纳撒哈拉以南非洲的观点。6

我采访了几位人工智能专家,并会见了许多当地受访者,他们出人意料地在工作中部署了人工智能工具。7 他们中的一些人是尼日利亚首都的外汇交易商,他们使用人工智能应用程序来确定黑市汇率,并通过来自各种非正式来源的当前市场汇率的实时数据以及图表和图形来预测汇率波动。另一组受访者是肯尼亚基安布县的奶农,他们使用机器视觉和图像识别软件来检测奶牛的疾病并提出治疗方案。这些农民(在技术操作员的帮助下)将奶牛的照片直接从他们的农场上传到移动平台,该平台为他们提供疾病分析和治疗建议。然后,南非威特沃特斯兰盆地的金矿工人使用集成传感器系统监测矿井的结构稳定性,并使用分析传感器数据和设备数据的算法来标记潜在问题,从而提高深度采矿的优化和安全性。

令我印象深刻的是,这三个次区域偏远地区的人们已经开始以有益的方式依赖人工智能工具,这推翻了几年前非洲尚未进入人工智能革命的概括。然而,我担心的是,上述用户几乎没有人了解这些人工智能系统是如何运作的,也没有人解释过软件是如何取得成果的。例如,肯尼亚的一些农民表示,他们从那时起就对了解他们所依赖的“神奇”图像解析算法背后的运作方式产生了浓厚的兴趣,因此他们或许可以得到一些合理的解释来完全信任它,但他们无法得出这样的解释。即使是协助他们操作电话的当地技术人员也无法解释人工智能系统的输出。此外,尼日利亚的一些外汇兑换处代理商想知道如何获得像建立该系统的人的名字这样简单的信息,这样当客户询问他们预测的来源时,他们或许可以依靠开发人员的声望,但这似乎有些牵强。值得注意的是,在这种情况下,开发模型的人和受其影响的人之间必须进行的大量翻译可能会使可解释性变得困难。然而,即使这些模型的可解释性在技术上是可行的,如何在实践中实现它可能需要的不仅仅是一个工程解决方案。毕竟,外汇兑换处仍然需要由应用程序模型背后的金融分析师建立信任,以灌输对其预测的信心,而不仅仅是系统预测性能的强度。

也许让这些工具的用户更加困难的是,他们所依赖的人工智能工具不是在该地区开发的,也没有可以依赖的本地对话者。如果存在更大程度的本地化,也许可以轻松联系到这些工具的开发人员来帮助这些用户找到一些答案,而开发人员自己反过来也可以更好地了解用户的需求——考虑到与其他技术不同,人工智能结果可以是动态的,并且可以随着系统学习和适应新数据和交互而随时间而变化。这种相互作用(或缺乏相互作用)也凸显了大多数非洲国家被定位为这些技术的唯一用户或消费者的后果。这种差异是一个比单纯需要可解释性更大的问题,但它确实使可解释性(以及其他原则)相应地更具挑战性。

我在这些次区域遇到的大多数人工智能系统都是进口的,有些甚至托管在国外——主要是美国,还有一些在加拿大、英国、中国、德国、以色列,令人惊讶的是爱沙尼亚。当然,像这样的进口人工智能系统可以提供巨大的价值。但是,如果人工智能系统的设计没有充分考虑相关的文化背景,或者它们的模型没有针对特定区域进行优化,那么人工智能系统的好处就会被削弱。此外,这种人工智能系统提供的解释可能与当地的情况、实践或需求不一致。人工智能模型设计或解释的这种不一致可能会使该地区的用户难以理解人工智能系统决策的基础,从而削弱其有效性,并限制用户信任或有效与它们互动的能力。我采访的一些当地用户在现场向我表达了对软件提供的信息不适用于上下文的失望。例如,外币兑换商使用的软件将尼日利亚货币描述为“其他”(尽管有 40 多种货币的货币描述)。这些限制以及更基本的挑战,例如输出内容是外语或无法解释的语言,导致应用程序的初始用户感到困惑并出现错误计算,从而阻碍了客户对软件的信任。

再举一个例子,肯尼亚的一些牧民饲养着博兰和萨希瓦尔品种的牛。他们抱怨图像视觉机器经常误诊本土品种的牛。图像识别软件经常将它们标记为营养不良,因为它们体型娇小,体型瘦削(这是对环境的自然适应,因为它们经常长途跋涉去吃草,需要的饲料摄入量较少)。平台上显示的所谓最佳体重模板就像西荷斯坦、安格斯或赫里福德品种,这些品种通常体型较大,是经过选择性培育以生产肉类或奶制品。因此,用于构建这些人工智能模型的数据代表性不足可能是这些系统未能有效捕捉它们预期处理的现实世界场景的多样性或复杂性的部分原因。由于存在这样的差距,输出结果可能变得不那么透明,也更难解释。对于牧民来说,由于不清楚导致这种误诊的原因,他们对模型的信任受到了削弱。如果模型的可解释性更好,他们或许可以深入了解有多少诊断可能是由于实际营养不良造成的,又有多少是由于错误标注了体重造成的。如果图像视觉软件能够更好地解释其功能,那么牧民们就可以更加信任它的预测,但事实上,他们觉得该模型并不适合他们当地的环境,但他们没有真正的方法来确认这是否是关键问题。可解释性并不能从

根本上解决许多人工智能模型不透明的问题,但它有助于让用户(和开发人员)意识到这些问题以及它们在不同环境下对输出的影响程度。8 缺少与最终用户互动的机会意味着利用用户反馈来增强可解释性的途径没有得到探索。肯尼亚牧民没有机会寻求对门户网站上显示的奶牛加权模板的澄清,也没有机会就其牛群品种的软件提供反馈。因此,其中一些人表示,由于系统不透明,即使治疗建议可能是有理有据的,他们也很难证明营养康复和膳食补充剂的治疗建议是合理的。如果这些养牛农民或外币兑换处经销商有理由相信这些解释并不适合他们和他们的情况,那么这些解释(无论多么有用或易懂)还有什么价值呢?这些例子反映了比可解释性更广泛的问题,但它们代表了相对背景的差距如何阻碍对人工智能的信任并削弱用户对该技术的信心,而可解释性就是为了增强这一功能。这只是该领域存在的几个例子中的两个。

下属考虑和可解释人工智能的进步

技术问题可以通过技术和非技术干预来解决。关于后者,将人类解释者作为人工智能系统和用户之间的中介和助产士的想法值得探索。这一概念(不同于人工智能监督的人机干预)借鉴了人类深厚的指导和知情解释传统,这在许多非洲社会和土著社区中至关重要。9 例如,在马里和塞内加尔等国家,格里奥长期以来一直是这些社会文化知识和历史的保存和解读的核心。几个世纪以来,他们一直帮助以当地社区和公众能够理解和欣赏的方式来解释各种事件、历史和传统的背景、相关性或含义。他们运用音乐、讲故事、调解甚至宣传等技能调动知识,为社区翻译信息。10 在当今的塞内加尔,一些格里奥正在使用新技术,并通过富有创意且具有文化背景的解释帮助当地社区了解新的数字媒体工具。11

在人工智能的背景下,这种贾利或格里奥式的人物可能有助于传达事实内容,并解释人工智能系统处理的信息的背景、相关性和道德含义。他们可以将人工智能系统的结果转化为符合其社区文化背景的有意义的叙述。在我的田野调查中,我在坦桑尼亚发现了我称之为人类“人工智能解释者”的人,他们以格里奥式的身份行事。在那里,一个当地的妇女健康非政府组织 (NGO) 获得了一个移动优化的人工智能系统的支持,该系统可以自动解释超声波视频,帮助那些可能没有钱去专科中心或不得不长途跋涉或等待很长时间才能获得超声波服务的当地贫困妇女。这种人工智能工具(比放射科实验室的大型超声波扫描仪简单)需要使用支持蓝牙的棒状超声波探头多次扫描这些女性的腹部,反射探头捕获的声波并转换成数字图像或视频。在对视频和图像数据进行预处理后,人工智能软件会提取相关特征,通过手持平板电脑以信息图表的方式为这些女性提供有关怀孕情况的见解。这些女性在平板​​电脑上看到她们宝宝的模拟图像时非常兴奋,这一功能或许可以促进女性与胎儿之间的情感联系。

即使在测试阶段,该 AI 系统也依赖于边缘检测和模式识别(从这些女性随时间收集的图像和视频中获取)。它将高级成像与 AI 算法相结合,以学习模式并对图像进行分类,从而提供模拟输出。尽管功能有限,但这种 AI 工具似乎更快,更容易被更多女性使用,并且不需要像传统替代方案那样多的技术支持。然而,当软件解释胎儿测量值并指出潜在问题但无法解释其结论的基础时,或者当在连续的超声波检查中进行不同的评估而没有解释这些变化时,AI 系统会让一些女性担心或不信任它的准确性。非政府组织的工作人员(主要是当地的助产士和公共卫生专家)要求软件开发团队(主要是外国机器学习工程师、数据科学家和超声波检查员)对 AI 系统进行一些培训。非政府组织了解了围绕该模型的数据流程和管理,包括软件的用户界面、用户体验和性能指标。现在,由于对人工智能系统的功能和局限性有了相当的了解,再加上非政府组织成员对社区中孕产妇健康问题和实践的既定知识,一些非政府组织的成员(以及他们的志愿者)担任了人类人工智能解释员。

社交媒体平台:如果用户同意,在社交媒体平台上创建帐户 所提供的手机号码有时会被用来向目标用户投放广告。我们公司的质量非常好,您可以向我们索 WhatsApp 号码数据 取清单。您可以与我们公司合作,我们提供快 速的就业服务。您也可以访问我们的网站。

这些解释员亲自到场

详细说明了具体测量和结果背后的理由;他们还提供了可能的影响和错误的基本背景解释(使用文化上适用的轶事),并指出了妇女可能需要标准后续程序的情况。更重要的是,这些像格里奥一样的解释员有机会用斯瓦希里语描述平板电脑模拟,甚至回答与人工智能工具无关的怀孕问题,帮助患者理解和信任人工智能系统的使用,但更重要的是,他们帮助填补了技术设计者可能无法意识到的一些可解释性空白。为了解决这个可解释性空白,考虑采用(或雇用人员)模仿格里奥或助产士的解释者角色可能是有希望的。这些人类人工智能解释器甚至可以发挥解释以外的作用。它们可以对脱离语境或可能存在偏见的数据解释进行检查,为机器智能的冷酷计算增添人性化色彩。

此外,一些开发人员抱怨说,

对人工智能治理中可解释性的期望对于道德要求来说太 媒体购买——真正含义指南 过深远(因为构建可能很广泛、动态,并且需要领域特定性)。12 作为对他们的回应,解决这一可解释性挑战的一个可能解决方案是让开发人员避免创建通用人工智能系统,而是专注于专门的人工智能应用程序,这些应用程序将允许定制方法来满足可解释性要求,这些方法更适合特定的、易于理解的气候。这还可以 移动电话号码列表 降低创建系统的风险,这些系统虽然可能有效,但会延续文化不敏感或呼应历史帝国主义的动态。可解释的人工智能应该强调需要考虑人工智能系统部署的更广泛的社会文化背景。南非开普敦大学的研究人员正在开发一种新的可解释性方法,该方法建立在连续的识字和背景之上。13 这种人工智能系统方法不仅仅是文字和信息生成,还使用简单的视觉效果、交互式仪表板和讲故事的方式,以一种适应性强、不言自明的方式向当地人解释其输出。需要采取更具参与性的方法来开发人工智能系统,并建立更强大的可解释框架,这可以确保受系统决策影响的人们能够挑战或改变结果。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注