首页 十大品牌文章正文

理解与缓解金融领域生成式AI的风险

十大品牌 2025年10月20日 21:36 0 aa

文/彭博首席技术官办公室负责任人工智能主管 塞巴斯蒂安·格尔曼博士及团队

鉴于生成式人工智能(GenAI)在高风险金融服务应用中的日益普及,彭博开展了一项全面的研究,旨在填补领域特定AI内容安全框架的空白。此次研究由彭博首席技术官办公室下属的“负责任AI”团队、AI工程团队及数据AI团队跨部门协作完成,团队成员包括研究人员、软件工程师和数据工程师。该研究的核心目标是弥合通用AI安全分类体系与金融实际应用中细微风险之间的差距。

该研究成果论文以《理解与缓解金融领域生成式AI的风险》为题,于2025年6月26日在希腊举办的国际计算机学会(ACM)公平、问责与透明度会议(FAccT 2025)上正式发布。论文首次提出了一套专为金融行业定制化的AI内容安全分类体系,系统识别出一系列金融领域特定的风险类别,如机密信息披露、反事实叙述及金融服务不当行为等,这些问题在现有通用防护机制中常常被忽视。本研究的最终目标是通过结合红队测试实践、具备上下文感知能力的防护机制,以及与监管要求相一致的风险分类方法,帮助金融机构以更负责任的方式部署生成式AI系统。

理解与缓解金融领域生成式AI的风险

哈佛大学计算机科学博士、彭博首席技术官办公室 负责任人工智能主管 塞巴斯蒂安·格尔曼

背景:金融服务中的AI应用及关键风险

彭博开展了一项聚焦金融服务领域特定案例研究,提出一套定制化的AI内容安全分类体系,该体系充分反映了主要利益相关方(包括买方机构、卖方机构及技术供应商)所处的运营与监管环境。基于该分类体系,研究团队对当前主流大语言模型的安全防护机制进行了实证评估。结果显示,通用型安全工具常常忽略关键的领域特定风险。为此,我们进一步提出构建具备上下文感知能力的安全框架,以支持生成式AI在金融服务领域的负责任与合规部署。

买方机构——包括共同基金、对冲基金、私募股权基金、养老金管理机构及零售财富顾问等。通常通过基本面分析、技术分析和量化分析来推动投资决策和客户策略。这些机构多数负有受托责任,必须以客户的最佳利益为首要原则。随着生成式AI在研究支持、个性化服务及投资组合洞察等方面的应用日益广泛,其生成内容的可靠性、可解释性与合规性已成为关键要素。

卖方机构——包括经纪交易商、托管机构、做市商和投资银行。主要承担提供市场流动性、撮合交易和支撑资本市场基础设施的角色。其监管义务因服务对象的不同而有所差异,尤其在面向零售客户时,需遵循更为严格的适当性标准。随着监管机构对AI在投资建议、交易结构设计及自动化客户沟通等领域应用的日益关注,卖方机构必须平衡技术创新与合规要求之间的关系。

技术供应商——为金融机构提供通用或领域特定的解决方案,支持其在数据管理、交易分析和合规自动化等关键领域的运营。随着生成式AI能力逐步嵌入这些系统,供应商也开始面临越来越多的直接或间接监管审查,尤其当其产品涉及受监管活动时。在这一背景下,深入理解技术设计如何影响客户变得至关重要。

为了在金融服务领域负责任地部署生成式AI,机构必须从业务目标与合规义务的双重视角出发,对潜在风险进行全面评估。在这一过程中,尤需关注以下三个关键风险领域。

1. 信息源风险。金融机构在日常运营中需处理大量敏感客户数据和机密财务信息,其中包括重大非公开信息(MNPI)。尽管生成式AI系统具备整合数据并生成内容的能力,但其必须严格遵守有关数据收集、使用与披露的法律规定。一旦发生隐私泄露、MNPI滥用或数据来源记录不完整等情况,机构可能面临严重的监管后果。

2. 沟通风险。在金融行业,市场营销、信息披露及客户沟通均受到严格的内容规范约束,强调信息的公平性、平衡性与准确性。生成式AI在大规模部署场景下所生成的内容,必须严格遵循这些合规标准。若出现误导性陈述、缺乏事实依据或遗漏关键风险,尤其是在面向零售客户的沟通中,极有可能构成监管违规。

3. 投资活动风险。生成式AI正广泛应用于交易策略支持、决策流程自动化及投资洞察的挖掘。然而,这类技术的使用也可能引发市场操纵、欺诈行为,甚至非故意的内幕交易等一系列风险,尤其在模型访问或推断出受限信息的情况下更为突出。作为市场中介机构,卖方公司需承担更高的监管审查责任。同时,若技术供应商在缺乏充分防护机制的前提下使用AI工具处理机密数据,也可能面临严重风险。

深入理解上述风险动态,对于希望以负责任方式部署生成式AI的利益相关方而言至关重要。随着监管框架不断演进、应用场景日益成熟,金融机构亟需突破通用型风险控制机制的局限,转向更具针对性、贴合行业实际的安全防护体系,以应对日益复杂的技术挑战与合规要求。

AI风险分类体系

在金融服务领域,构建一个稳健且具有上下文感知能力的风险分类体系,是实现生成式AI系统安全部署的基础步骤。尽管已有多项研究提出了各类风险分类框架,但目前尚未形成统一的行业标准。为此,研究团队对现有文献中的核心观点进行了系统整合,强调在评估AI风险时,必须结合具体应用场景与监管环境。借鉴经济合作与发展组织(OECD)对AI危害(如闯红灯)和AI事件(如撞车事故)的区分,本研究认为,风险评估应超越通用型模型,反映特定领域的现实情况。

1. 系统无关风险的评估。当前大多数AI安全研究聚焦于“系统无关”风险(System-Agnostic Risk),即那些源自底层技术本身、与具体应用场景或行业无直接关联的风险类型。这类风险包括大语言模型因训练数据缺陷或推理过程误用而导致的错误信息生成与传播。作为基础性问题,这些风险必须通过负责任的模型开发、测试与持续优化加以解决。

在实际应用中,质量风险(如可靠性、稳健性)与安全风险(如攻击性内容或非法信息)之间的界限往往并不清晰。然而,对于处于高度监管环境中的金融机构而言,安全标准必须超越“无伤害”的一般阈值,以反映法律义务和声誉利害关系。

当生成式AI系统以对话代理形式部署时,其输出内容将面临更严格的审查。目前的风险评估框架往往局限于识别错误信息或有害内容,且多是基于西方文化与法律假设构建的通用环境。对于金融服务行业而言,这种做法存在明显局限。行业特有的约束条件,如信息披露义务、广告限制及适当性标准,在通用评估基准中很少被纳入考量。即便某些分类体系(如MLCommons)建议添加免责声明,但这种做法在实际监管中可能仍无法满足金融合规标准。

除了对个体用户构成风险外,生成式AI系统还可能带来群体性或系统性风险。当模型在整个行业大规模部署时,可能影响市场行为或加剧结构性偏见。如果基础模型中嵌入了偏颇的假设或存在数据缺陷,这些问题可能在多个金融机构的决策过程中层层传导,从而引发不仅仅是个别机构的问题,更可能影响市场的整体稳定性。

2. 全面风险的评估。为弥补通用型风险评估框架在金融场景中的局限性,我们倡导采用一种全面风险评估方法,即在生成式AI系统的预期应用环境中,结合其运营、监管与组织背景,系统识别与评估潜在风险。在金融服务领域,这意味着必须充分考虑买方机构、卖方机构及技术供应商在职责分工与风险暴露方面的差异。相应的领域特定风险分类体系应与受托责任、适当性标准、数据治理要求及监管预期保持一致。

新兴的方法论为这一评估路径提供了可操作的工具支持。例如,结构化的社会技术框架将风险视为人智交互(Human-AI Interaction)在复杂系统中的函数。在模型设计、部署与治理流程中嵌入风险评估机制,尤其是在与合规及业务专家协作的过程中,已被广泛认为是关键环节。多项研究建议将风险的严重程度与相应的补救或接受机制相挂钩,从而使金融机构能够将生成式AI的监管纳入现有治理体系之中。

定量技术手段,如静态基准测试与红队测试,进一步支持机构对生成式AI行为进行规模化的评估。基准测试可在预设风险类别下实现测试的可重复性,而红队测试则通过模拟真实、动态场景,主动识别系统漏洞。这两种方法相辅相成:红队测试结果可反哺基准数据集,增强机构记忆、优化回归测试,长期校准安全防护机制。

这种以风险分类体系为核心的评估方法,有助于开发技术稳健、法律合规、运营安全的生成式AI系统。在金融服务这一对失败容忍度极低的领域中,将风险评估嵌入系统设计,并与现有监管结构相一致,不是可选项,而是必要条件。

金融服务领域首个AI内容安全分类体系

通用型的安全分类体系与防护机制,往往难以充分应对金融服务行业固有的监管复杂性与声誉敏感性。为弥补这一安全缺口,我们提出一套专为金融应用场景设计的领域特定AI内容安全分类体系。该体系基于利益相关方的职责、风险暴露程度及现有安全框架中的既定原则,明确界定了生成式AI系统在内容生成中应遵循的行为边界。

如表所示,该分类体系中的所有类别按字母顺序排列,并非按风险严重程度排序。每一类别均对应一个特定的风险来源,例如“机密信息披露”(与数据治理相关),“金融服务公正性”(与沟通标准相关),“金融服务不当行为”(与投资规则相关)。我们在分类中区分了两类内容风险:一类是违反正式法规的内容(如歧视、诽谤),另一类则是可能引发声誉风险的内容(如冒犯性语言、社交媒体标题风险)。后者虽不构成法律违规,但可能引发公众负面舆论。

表 金融服务领域AI内容安全分类体系

理解与缓解金融领域生成式AI的风险

通过将声誉风险细化为多个具体类别,该分类体系使金融机构能够根据具体的上下文和应用语境,灵活调整生成式AI系统的安全防护机制。该框架具备良好的适应性,可根据不同司法辖区的监管要求、组织角色及系统设计约束进行调整。尽管本研究聚焦于内容层面的安全问题,我们也认识到更广泛的系统性风险(如模型驱动的市场扭曲或算法趋同行为)同样值得未来深入研究,并需通过行业层面的治理机制予以应对。

实验与关键发现

研究团队对多种广泛使用的AI防护系统进行了测试,以评估其在金融服务应用中识别内容风险的有效性。我们基于一个领域特定的红队测试数据集,检验了这些原本为通用场景设计的系统在处理金融相关生成式AI输出时的表现。

实验结果揭示了显著的安全缺口。尽管这些防护系统在一般场景下表现出较高的准确率,但在应对金融领域中更具语境敏感性和复杂性的查询时,往往无法识别出大量领域特定风险。即便在提示中引入扩展后的风险分类体系,其识别能力仍然有限,常常遗漏重要的金融风险类别,或产生过多误报。这一发现凸显了将通用型安全机制迁移至知识密集型行业所面临的挑战,并进一步强化了构建面向特定领域的安全框架的必要性。

讨论与建议

通过对现有分类体系、领域特定风险以及防护机制表现的分析可以看出,当前生成式AI在金融服务领域的部署仍存在持续的安全缺口。要有效应对这一挑战,亟需构建一套结构化、具备上下文感知能力的安全管理方法。

1. 生成式AI安全的整体方法。实现有效的生成式AI安全管理,需要在稳健的治理体系中嵌入多层次的防护策略。单一的安全机制难以应对模型的不断演化及对抗性行为的日益复杂。风险缓解措施应包括自动化防护机制、人工审核流程及违规升级处理策略,从而实现对违规行为的快速响应与调整,例如暂停访问权限或将输出内容标记供合规审查。

风险缓解策略应与实际应用场景相匹配。例如,对于敏感的金融类查询,可通过提供免责声明进行提示;涉及MNPI的问题,则需实施更严格的屏蔽机制。此类控制措施的设计需要技术专家与金融专业人士密切协作。

2. 领域特定风险框架。通用型安全框架虽提供了有益的基础,但在领域特定应用中必须进行调整。在金融服务领域,诸如金融建议、不当行为及监管违规等风险类别需有明确界定。基于通用型分类体系训练的防护机制往往难以捕捉这些细微差异,限制了其有效性。与所在领域相契合的风险框架必须考虑法律义务、利益相关方职责及不同司法辖区的差异,以确保兼顾合规性与使用性。

目前,本分类体系聚焦于内容层面的风险识别,我们计划在未来单独研究潜在的系统性风险。

结论

通过审视现有分类体系、构建首个面向金融服务领域的安全框架,以及实证测试当前的流防护机制,我们发现:通用型生成式AI安全机制与领域特定需求之间存在明显的安全缺口。我们呼吁:采取一种全面的生成式AI风险管理方法,将实际应用场景、利益相关方责任及语境脆弱性因素纳入考量范围。

尽管通用型框架可作为起点,但真正有效的安全机制必须针对领域特定风险进行调整,并嵌入更广泛的治理体系之中。本文提出的建议旨在为定制化分类体系、安全工具及风险管理实践的开发提供指导,从而使生成式AI应用更好地契合金融领域的特定要求。


(此文刊发于《金融电子化》2025年9月上半月刊)

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap