【独家选译】2026年国际人工智能安全报告

小 i 导读

在通用人工智能加速突破、风险与治理争议同步升温的背景下，《2026年国际人工智能安全报告》试图为全球决策提供一套“共同认知”。该报告由英国科学、创新与技术部发布。报告称，通用AI能力已超预期跃升，但风险证据仍在累积、治理手段明显滞后；未来关键不在于是否发展，而在于能否在不确定中建立有效防线与全球协同规则。

北京大学中外人文交流研究基地对该报告进行中文选译。

《2026年国际人工智能安全报告》简介

《2026年国际人工智能安全报告》是一份由全球顶尖专家团队撰写的权威科学评估，旨在系统性地审视通用人工智能（AI）的能力与风险。该报告由著名人工智能科学家、蒙特利尔大学教授约书亚·本吉奥（Yoshua Bengio）担任主席并领导撰写，核心写作团队包括来自全球顶尖机构的三十余位专家。报告的指导工作由一个超过30个国家及欧盟、经合组织、联合国等国际组织提名的代表组成的专家咨询小组负责。该报告旨在为各国决策者提供一个基于证据的共同认知基础，以应对AI快速发展带来的“证据困境”，即技术演进速度远超风险证据积累速度，使得过早或过晚干预都存在风险的复杂局面。

为此，报告围绕三大核心问题展开：首先，它评估了通用AI当前“参差不齐”的能力，指出其在复杂推理任务上表现出色的同时也在基础问题上屡屡犯错，并描绘了到2030年可能出现的从停滞到加速的多种发展情景；其次，它系统性地分析了三大类新兴风险，包括恶意使用（如助长犯罪、网络攻击与生物武器开发）、系统故障（如可靠性挑战与失控风险）以及对社会经济体系的系统性冲击（如劳动力市场剧变与人类自主性的侵蚀）；最后，它审视了现有的风险管理方案，指出技术防护虽在进步但存在局限，需要构建从数据过滤到社会复原力在内的“纵深防御”体系。

报告最终得出结论：通用AI的能力提升已超越许多专家预期，风险证据正在累积，但当前的管理手段仍不充分。尽管未来充满不确定性，但通过这份报告建立一个共同的科学基准，将有助于全球社会在充分知情的基础上做出塑造未来的关键抉择。

2026年国际人工智能安全报告

International AI Safety Report 2026

报告简介

《2026国际人工智能安全报告》是该系列报告的第二版。该系列在2023年首届全球人工智能安全峰会于英国布莱切利庄园召开后创立，旨在促进国际社会形成对人工智能系统能力与风险的科学共识，提升人们对当今时代最具影响力的技术变革的集体认知水平。报告在来自30多个国家以及欧盟、经合组织、联合国等国际组织的百余位独立专家组成的多元化团队的指导下完成。

执行摘要

《2026年国际人工智能安全报告》评估了通用人工智能（general-purpose AI）系统能做什么、会带来何种风险以及此种风险如何管理。

报告重点关注能力最强的通用人工智能系统及其相关的新兴风险。“通用人工智能”指能够执行多种任务的AI模型和系统。“新兴风险”指在通用人工智能能力发展前沿出现的风险。其中部分风险已经显现，并造成了有案可查的危害；其余部分仍较不确定，但一旦爆发可能会造成严重后果。

报告旨在帮助决策者应对通用人工智能带来的“证据困境”（evidence dilemma）。AI系统的能力正迅速提升，但相关风险的证据出现缓慢且难以评估。对决策者而言，过早行动可能会固化无效的干预措施，而等待确凿数据又可能使社会面临潜在的严重负面影响。为缓解这一问题，报告尽可能具体地整合了现有AI风险的相关信息，同时强调了尚存的研究空白。

报告虽聚焦风险，但通用人工智能同样能带来显著效益。AI已在医疗健康、科学研究、教育及其他领域发挥积极作用，尽管世界各国对其应用程度极不均衡。但要充分释放通用人工智能的全部潜力，必须有效管理其风险。滥用、故障和系统性颠覆会侵蚀信任并阻碍AI的普及。清晰理解这些风险将使各方能够根据风险的严重性和可能性采取相应行动。基于这一认知，出席全球人工智能安全峰会（AI Safety Summit）的各国政府发起编写该报告。

AI能力正在快速但不均衡地提升

自《2025年国际人工智能安全报告》发布以来，由初始训练后增强性能的新技术驱动，通用人工智能的能力持续增强。

AI开发者持续训练规模更大、性能更优的大模型。在过去一年中，他们通过“推理时扩展”（inference-time scaling）进一步提升了能力：允许模型在给出最终答案前调用更多算力生成中间步骤。该技术在数学、软件工程和科学等更复杂的推理任务上带来了尤为显著的性能提升。

与此同时，能力仍然是“参差不齐”的：领先的AI系统可能在擅长某些困难任务的同时，却难以完成其他更简单的任务。

通用人工智能系统在许多复杂领域表现出色，包括生成代码、创作逼真图像以及回答数学和科学领域的专业问题。然而，它们在某些看似更直观的任务上仍显吃力，例如图像物体计数、物理空间推理，以及在长流程任务中修正基本错误。

2030年以前，AI发展的轨迹尚不确定，但当前趋势表明其仍将持续进步。开发者笃定算力仍将至关重要，并宣布投资数千亿美元建设数据中心。但AI能力是否会像近期一样持续快速提升难以预测。从现在到2030年，进展可能放缓或停滞（例如因数据或能源瓶颈），可能以当前速率继续，也可能显著加速（例如因AI系统开始加速AI研究）。

若干风险的现实证据日益增多

通用人工智能风险分为三类：恶意使用、故障和系统性风险。

恶意使用

AI生成内容与犯罪活动：AI被滥用以生成用于诈骗、欺诈、敲诈勒索和未经同意的私密影像的内容。尽管此类危害已有充分记录，但其发生频率和严重性的系统性数据仍然有限。

影响与操纵：在实验环境中，AI生成内容在改变人们信念的效果可与人类撰写的内容相媲美。现实中通过AI进行操纵的案例虽有记录，但尚不普遍。不过此类案例可能会随着AI能力提升而增加。

网络攻击：AI能够发现软件漏洞并编写恶意代码。在一项竞赛中，一个AI智能体识别了现实软件中77%的漏洞。犯罪集团和国家支持的黑客正在其行动中积极使用通用人工智能。目前尚且不知攻击者与防御者哪一方将从AI辅助中获益更多。

生物与化学风险：通用人工智能可提供关于生物和化学武器开发的信息，包括病原体细节和专家级实验室操作指南。2025年，多家开发者在发布新模型时增加了额外防护措施，因为他们无法排除这些模型可能协助新手制造此类武器的可能性。目前仍难以评估物质性障碍在多大程度上能继续限制试图获取这些武器的行为体。

故障

可靠性挑战：当前的AI系统有时会出现捏造信息、生成缺陷代码以及提供误导性建议等故障。AI智能体因其自主性而加剧了风险，使得人类更难以在故障造成危害前介入。现有技术虽可以降低故障率，但尚未达到许多高风险场景所需水平。

失控：“失控”情形是指AI系统的运行脱离任何人控制、且没有明确途径重新获得控制的情景。当前系统尚不具备引发此类风险的能力，但它们正在自主运行等相关领域取得进展。自上一份报告以来，AI模型区分测试环境与实际部署环境以及在评估中寻找漏洞的情况日益普遍。这可能导致危险能力在部署前未被察觉。

系统性风险

劳动力市场影响：通用人工智能可能会自动化大量的认知任务，尤其是在知识工作领域。经济学家对未来影响会达到何种程度存在分歧：一些人预计工作岗位的流失将被新创造的工作岗位所抵消，而另一些人则认为广泛的自动化可能显著减少就业和工资水平。早期证据显示对整体就业尚未受到影响，但在一些受AI影响的职业（如写作）中，有迹象表明对早期职业从业者的需求正在下降。

对人类自主性的风险：AI的使用可能影响人们做出明智选择并据此行动的能力。早期证据表明，对AI工具的依赖可能会削弱批判性思维能力并助长“自动化偏见”（automation bias）——不经充分审查就相信AI系统输出结果的倾向。AI companion应用（Zoom推出的生成式AI数字助手，译者注）如今拥有数千万用户，其中一小部分用户表现出孤独感增加和社交参与度减少的情况。

多层次方法叠加可提供更稳健的风险管理

由于技术和制度挑战，管理通用人工智能风险十分困难。技术上，新能力有时会不可预测地出现，人们对模型内部运作原理仍知之甚少，并且存在“评估缺口”：部署前测试的性能无法可靠预测实际的应用价值或风险。制度上，开发者有动机将重要信息专有化，而开发进度的压力可能导致优先考虑速度而非风险管理，并使相关机构更难提升治理能力。

风险管理实践包括识别漏洞的威胁建模、评估潜在危险行为的能力评估，以及收集更多证据的事件报告。2025年，12家公司发布或更新了其前沿AI安全框架——这些文件描述了他们在构建能力更强的模型时计划如何管理风险。虽然AI风险管理举措很大程度上仍依靠自愿参与，但少数监管机构开始将一些风险管理实践纳入法律要求。

技术防护措施正在改进，但仍存在显著局限。例如，旨在诱导有害输出的攻击已变得更难实施，但用户有时仍能通过改写请求或将其分解为更小步骤来获得有害输出。通过叠加多重防护措施——被称为“纵深防御”（defence-in-depth）——可以使AI系统更加稳健。

开放权重模型（open-weight models）带来了独特的挑战。它们提供了显著的研究和商业利益，尤其惠及了资源较少的参与者。然而，这些模型一旦发布就无法召回，其防护措施更容易被绕开，且参与者可以在不受监控的环境中使用，使得滥用更难预防和追踪。

社会复原力（societal resilience）在管理AI相关危害上发挥着重要作用。由于风险管理措施存在局限性，它们可能无法阻止某些AI相关事件的发生。增强社会复原力以吸收和恢复这些冲击的措施包括：加强关键基础设施、开发检测AI生成内容的工具，以及建设应对新型威胁的制度能力。

引言

如今，领先的通用人工智能系统已经能通过法律和医学领域的专业执业考试，能根据简单提示编写功能正常的软件，并能像学科专家一样回答博士级别的科学问题。而三年前，ChatGPT刚刚问世时，这些任务还都无法被可靠地完成。这一转变的速度令人瞩目，虽然未来变化的进程尚不确定，但大多数专家预计AI将持续进步。

如今，近十亿人在日常生活和工作中使用通用人工智能系统进行学习和工作。企业正投资数千亿美元建设训练和部署这些系统所需的基础设施。在许多情况下，AI已经在重塑人们获取信息、做出决策和解决问题的方式，其应用领域涵盖从软件开发、法律服务到科学研究的各行各业。

但是，赋予这些系统实用性的能力也催生了新的风险。能编写功能代码的系统同样助长了恶意软件的传播；能总结科学文献的系统可能被恶意行为者用于策划攻击。随着AI被部署到从医疗保健到关键基础设施等高风险场景中，故意滥用、故障和系统性颠覆的后果将极其严重。

对决策者而言，技术变革的速度、应用领域的广度以及新风险的出现，都带来了重大挑战。通用人工智能的能力发展迅速，但收集和评估其社会影响的证据需要时间。这形成了报告所称的“证据困境”。过早行动，决策者可能实施无效甚至有害的干预措施；但等待确凿证据又可能使社会面临潜在风险的威胁。

报告的作用

《2026 国际人工智能安全报告》旨在帮助决策者应对证据困境，提供了关于通用人工智能的能力和风险的最新且国际共享的科学评估。

报告撰写团队包括逾百名独立专家，以及一个由30多个国家和欧盟、经合组织和联合国等国际组织提名的成员组成的专家顾问小组。报告还整合了来自学术界、产业界、政府和公民社会评审员的反馈。尽管贡献者们在某些问题上存在分歧，但他们一致认同，开展建设性、透明的人工智能科学讨论，对于全世界人民能够受益于这项技术并降低其风险至关重要。

由于证据困境在科学理解最薄弱的领域最为尖锐，报告聚焦于“新兴风险”——出现在通用人工智能能力前沿的风险。其分析侧重于那些仍存在高度不确定性的问题，旨在补充关注AI更广泛社会影响的研究。尽管报告借鉴了国际专业知识并力求具有全球相关性，但读者应注意，AI的应用率、基础设施和制度背景差异意味着风险在不同国家和地区可能以不同方式显现。

这些风险的证据基础参差不齐。一些风险，如AI生成媒体或网络安全漏洞带来的危害，目前已拥有坚实的实证依据。其他风险——特别是未来AI能力发展可能带来的风险——的证据则依赖于建模演练、受控条件下的实验室研究以及理论分析。报告综合了2025年12月前发表的一系列广泛的科学、技术和社会经济证据展开分析。在仍存在高度不确定性的领域，报告指出了证据空白，以指导后续研究。

自2025版报告发布以来的变化

《2026年国际人工智能安全报告》承接2025年1月首版报告。自那时起，通用人工智能以及研究界对其的理解都在持续演进，因此有必要进行修订评估。

在过去一年中，开发者继续训练规模更大、能力更强的AI模型。然而，他们也通过新技术实现了显著的能力提升——这些技术允许系统在给出最终答案前使用更多计算能力生成中间步骤。这些新的“推理系统”对AI在数学、编程和科学领域的性能提升尤为显著。此外，AI智能体——能够在有限人工监督下在现实世界中自主行动的系统——已变得更加强大和可靠，尽管它们仍容易出现基础性错误，在许多场景下的实用性有限。

通用人工智能系统也持续扩散。其扩散速度在某些地区甚至比许多以往技术更迅速，但在不同国家和地区间仍不均衡。科学知识相关能力上的性能提升也促使多家开发者在发布新模型时增加了额外的防护措施，因为他们无法确信地排除这些模型可能协助新手开发武器的可能性。

报告深入探讨了所有这些发展，并纳入了一些新的结构元素以提高其实用性和可读性。报告包含了与预测研究所（Forecasting Research Institute）合作编制的AI能力预测，以及与经合组织合作编制的AI场景预测。每个章节都包含自上一份报告以来的最新进展、决策者面临的关键挑战以及指导后续研究的证据空白。

报告结构

该报告围绕三个核心问题展开：

1. 通用人工智能如今能做什么？其能力可能如何演变？

第一章阐述了通用人工智能如何开发（§1.1. 何为通用人工智能？）、当前的能力与局限（§1.2.当前能力）以及影响未来几年发展的因素（§1.3. 2030能力展望）。

2. 通用人工智能带来了哪些新兴风险？

第二章探讨恶意使用风险，包括将AI系统用于犯罪活动（§2.1.1. AI生成内容与犯罪活动）、操纵（§2.1.2. 影响力与操纵）、网络攻击（§2.1.3. 网络攻击）以及开发生物或化学武器（§2.1.4. 生物与化学风险）；故障风险，包括操作失效（§2.2.1. 可靠性挑战）和失控（§2.2.2. 失控）；以及系统性风险¹，包括劳动力市场颠覆（§2.3.1. 劳动力市场影响）和对人类自主性的威胁（§2.3.2. 对人类自主性的风险）。

3. 现有哪些风险管理方法？它们的效果如何？

第三章探讨通用人工智能带来的独特政策制定挑战（§3.1. 技术与制度挑战）、当前的风险管理实践（§3.2. 风险管理实践）、开发者用于使AI模型和系统更稳健和更抗滥用的各种技术（§3.3. 技术防护措施与监控）、开放权重模型的特殊挑战（§3.4. 开放权重模型）以及增强社会应对潜在AI冲击和危害韧性的努力（§3.5. 构建社会复原力）。

结论

《2026国际人工智能安全报告》在来自30多个国家和国际组织的超过100名专家指导下，对通用人工智能这一快速演进且影响深远的技术提供了科学评估。贡献者们对于AI能力提升的速度、风险严重程度以及当前防护措施和风险管理实践是否足够有效持有不同观点。然而，在核心发现上，报告编者存在高度共识。通用人工智能能力的提升速度超过了许多专家的预期。若干风险的证据基础显著增强。当前的风险管理技术虽有改进，但仍不充分。

报告无法解决所有潜在的不确定性，但它可以建立一个共同的基准以及应对这些不确定性的方法。

变革之年

定期的科学评估能够追踪变化趋势。自首份《国际人工智能安全报告》于2025年1月发布以来，多款AI系统首次以金牌水平解决了国际数学奥林匹克竞赛（International Mathematical Olympiad）问题；恶意行为者滥用AI系统进行网络攻击的事件日益频繁且手段更加复杂，使更多AI开发者现在定期发布网络威胁详情；多家开发者在发布新模型时增加了额外的防护措施，因为他们无法排除这些模型可能协助新手开发生物武器的可能性。决策者面临的环境与一年前已显著不同。

核心挑战

报告多次提及证据空白。即使是开发者也往往难以预测通用人工智能模型如何以及为何获得新能力并以特定方式行事。“评估缺口”意味着仅凭基准测试结果无法可靠预测实际的效用或风险。在大多数问题上，关于AI相关危害普遍性和严重性的系统性数据仍然有限。当前的防护措施对于能力更强的系统是否仍将足够有效尚不明朗。这些空白共同界定了当前任何评估所确信的结论的边界。

报告所提出的根本挑战并非任何单一风险，通用人工智能的整体轨迹仍然存在巨大的不确定性——即便其当前影响日益显著。2030年的可能情景差异巨大：技术进步可能在接近当前能力水平时停滞、放缓、保持稳定，也可能以难以预料的方式显著加速。投资承诺表明主开发者预期AI能力将持续提升，但未预见的技术限制可能延缓进展。特定的AI能力水平的社会影响还取决于系统部署方式、部署场景、使用方式以及不同参与者的应对策略。这种不确定性反映了预测一项技术影响的困难——其影响依赖于难以预料的技术突破、不断变化的经济条件以及多样化的制度响应。

共识的价值

通用人工智能的发展轨迹并非固定不变：它将在未来几年由开发者、政府、机构和社区做出的选择所塑造。报告并不提供“应该做什么”的规定性意见。但通过推动形成基于证据、共同认可的人工智能发展格局认知，该报告有助于确保相关决策建立在充分信息的基础之上，并使关键不确定性得到认可。

报告也使得不同司法管辖区的决策者能够立足共同的、科学的基础，根据其社区的独特价值观和需求采取行动。该报告的价值不仅在于呈现其研究成果，更在于树立了携手应对共同挑战的典范。

注释：

1.报告中的系统性风险，指能力极高的通用人工智能在社会及经济领域广泛部署所引发的风险。需注意这一定义与欧盟《人工智能法案》（AI Act）中的相关概念不同，后者指代通用人工智能模型引发的“大规模危害风险”（risk of large-scale harm）。

原文：国际人工智能安全报告官网

编译：战宇飞

文字整理：曾丹

window.addEventListener('load', function(){getImages('#vsb_content')}) 【独家选译】2026年国际人工智能安全报告

【独家选译】2026年国际人工智能安全报告