发布信息

2025 GDC全球开发者先锋大会:探讨大模型安全与治理的迫切问题

作者:软荐小编      2025-02-25 14:01:48     75

DeepSeek 在全球范围内非常火爆,大家都开始使用 AI 了。然而,在专家的眼中,在这种情况下,大模型的安全问题以及治理问题变得更加紧迫了。

大模型存在诱导和欺骗行为该如何应对呢?大模型失控了又该怎么办呢?

2025 年的 GDC 全球开发者先锋大会工作坊名为“安全超级智能”。在这个工作坊上,有不少开发者以及专业观众都对 AI 安全表达了担忧。

_2025年GDC|“DeepSeek让大模型更普及了,AI治理也更急迫了”_2025年GDC|“DeepSeek让大模型更普及了,AI治理也更急迫了”

2025 年 GDC 全球开发者先锋大会的工作坊在“安全超级智能”的现场举行。

AI 智能安全研究员是朱小虎,他担任此次工作坊的负责人。2019 年,他在上海成立了一个机构,这个机构是非营利性的,名为安全人工通用智能研究中心(The center for safe artificial general intelligence),他希望借此推动国内安全 AGI 的发展。2021 年,麻省理工学院生命未来研究所邀请了朱小虎。他以合作学者的身份,专注于 AI 的风险研究以及通用人工智能安全研究。

朱小虎告诉澎湃科技,他认为现阶段的人工智能其实是人工混乱智能。即便像 DeepSeek、马斯克新发布的 Grok3 这类大模型在深度推理方面表现得极为出色,但它们并不安全。

朱小虎称,你的 AI 大模型存在可能会欺骗你的情况。存在一种被称为“欺骗性价值对齐”的现象,即大模型以欺骗的方式获得某种价值对齐,而这种对齐不能反映 AI 的真实目标或意图。在训练阶段和推理阶段,模型对于形成的上下文会产生一定的“欺骗性的对齐”。这种情况会影响到很多用户,像老人和小孩,会影响他们的个人判断。同时,还会侵犯隐私保护等。这也是模型不安全的一个重要方面。

要建立一个安全、可靠、可控且可信的人机(技)协作环境,就需要提出合理的措施来应对欺骗性价值对齐,并且这些措施必须是有效的。

朱小虎称,现阶段只能借助技术手段进行“堵”而非“疏”。然而,目前的技术尚不能完全处理这些问题,原因在于投入到 AI 安全领域的精力、时间、金钱以及资源都极为匮乏。这也是大模型在行业中落地所面临亟待解决的难题之一。

2 月 22 日,澎湃科技()与朱小虎进行了交谈,探讨如何让 AI 变得更安全。

模型有“欺骗性对齐”的情况,Grok3也不安全

澎湃科技:如何理解AI Safety这一概念?

朱小虎称,早期的 AI 安全可分为两个大类的概念。在英文世界里,有两个词用于表达安全,一个是 Safety(安全性),另一个是 Security(安全防护、安保)。

Safety 的概念较为宽泛,常提到的 AI 伦理方面属于 Safety 的分支。Safety 更注重在早期阶段就将“安全”考虑周全,涵盖后期的设计方法、建立相应的保护措施以及应用的方式等。而 Security 从技术手段角度更侧重于对模型的权重进行保护,以及如何防止黑客的攻击等。Safety 需要大家进行深入思考,以找出实践的路径。目前,国内的一线安全厂商强调在 Security 方面的能力,而大家对于 Safety 的概念相对较为模糊。

澎湃科技询问:在你看来,当下 AI 大模型通常存在哪些风险?大模型技术最为薄弱的环节以及安全漏洞在何处?

朱小虎称,现在大模型最为严重的是其“黑盒”特质。人们输入一个数据,大模型能直接输出一个答案,然而它的运作机制却无人知晓,这种情况被我们称作“黑盒”。

大模型的很多内在机制是以神经网络和深度学习为基础的,例如通过梯度下降等训练方式来进行优化。然而,它内在的连接和权重目前还没有有效的且可规模化的研究方法来供人们理解。正因如此,在使用大模型技术时,所生成的内容常常难以被用户完全理解。

这种模型的训练规模达到了万亿级别。对于单个的研究人员而言,这是一个非常棘手的任务;对于一个公司来说,也是如此。OpenAI 在模型调校和对齐领域花费了大量精力,它利用强化学习让模型行为符合人类价值观和伦理约束,从而能够在大规模推广前确保模型的安全性。微软曾推出过类似模型,meta(原 Facebook)也曾推出过类似模型。这些公司推出的模型在当时出现了不可控的负面效果后被暂停。

大模型的架构除了存在不可解释性外,还容易被外界干扰。例如,恶意使用或者遭遇黑客攻击,都有可能致使模型在应用场景中出现不安全的扩散效应。这些问题使得大模型在实际应用中的安全风险进一步加大。

澎湃科技:对企业和用户来说,不安全的模型会有怎样的影响?

朱小虎称:“不安全的模型”乃是一个模型所具备的特质。像 Anthropic PBC(一家美国的人工智能初创企业和公益公司)等一些研究人员,也对安全极为重视。他们在研究进程中察觉到模型存在“欺骗性对齐”(Deceptive element)的状况。在训练阶段和推理阶段,模型对于所形成的上下文会形成某种“欺骗性的对齐”,这种对齐能够欺骗人。这使得在大规模部署时,会对很多用户,像老人和小孩的个人判断产生影响,同时也会侵犯到隐私保护等方面,这是模型不安全的一个重要方面。

投入在AI安全领域的精力、时间、金钱和资源远远不足

澎湃科技:在你的观察中,现在大模型哪些做得安全?

朱小虎称:马斯克刚发布的 Grok3 和 DeepSeeK 并非百分百安全,且具有欺骗性与诱导性。这类大模型虽以实现 AGI 为目标,但极为不安全,会衍生出诸多需大家解决的问题。其不安全之处在于,模型可能会被诱导而输出一些暴力、有危害性的信息,甚至一些少儿不宜的内容。大模型本身存在这个问题,因此需要进行大量的内容审查和过滤,目前只能借助技术手段去“堵”,而无法做到“疏”。

目前的技术尚不能完全解决这些问题,原因在于投入到 AI 安全领域的精力、时间、金钱以及资源都极为不足。加州大学伯克利分校有一位核安全专家曾提及,在核领域,安全投入与核能力开发的比例为 7:1。与之相比,AI 安全需要投入更多的资源,以保障其安全性。

这些是大模型落地行业中有待解决的难题之一。技术本身不存在善恶之分,然而如今技术使得 AI 有了价值观,因为训练大模型所依据的都是人类的数据,无论是正面的还是负面的,都有可能引发危害。

澎湃科技询问:如今的 AI 深度伪造技术能够达到怎样逼真的阶段呢?普通用户又应当如何去辨别呢?

朱小虎称:近几年,深度伪造(DeepFake)一直在持续发展。随着 AI 技术不断增强,其精细度也在逐渐提升。很多时候,像年纪较大的人以及小孩这样的普通用户,无法进行辨别。对于模型企业而言,它们所做的很多模型都附带一些水印,这是防范 AI 深度伪造的一种技术手段,然而,这仅仅只是初步的技术方案。

澎湃科技:你认为现在谈论AI治理和AI安全,为时过早吗?

朱小虎认为,此前这个问题并非紧迫。然而今年,尤其是 DeepSeek 产生全球影响之后,安全问题与治理问题变得极为急迫。在过去,大家或许一直都在较为缓慢地探索治理和安全的策略,而现在则进入了一个新的阶段,也就是开放式的人工智能治理阶段。过去,许多 AI 技术处于公司或高校的背后。像 OpenAI、Google DeepMind、Anthropic 等这些公司或机构,它们的许多内容都没有公开,主要目的是防止技术扩散。

现在,OpenAI 和 DeepSeek 的发展让大家对开源生态产生了渴望,于是就出现了很多实验以及开源项目。全球的企业和高校都在促使开源 AI 或 AGI 得到发展,这已然成为一个较为明显的趋势。在这个过程里,需要从技术方面进行变革,去构建新的框架或者平台。这并非单个公司能够独立完成,也并非单个群体能够独立完成,更并非单个政府能够独立完成。而是需要全社会共同参与,从经济层面引入合理方式,从社会层面引入合理方式,从环境层面引入合理方式,通盘考虑并加以推进。

澎湃科技:在你看来,一个安全的大模型应该是怎样的?

朱小虎称目前尚未出现极为出色的安全模型。这是一个需要逐步磨合的过程,未来或许会有新的研究机构涌现以应对这些问题,因为安全性风险很快就会变为实际存在的问题。

目前我们主要追求的是模型要“可证明安全”。这是一个非常严格的要求,不过从长远来看,这是最可行的路径。现阶段我们都是通过不断进行实验和评估,以此来测试和改进模型,逐步朝着目标逼近。

相关内容 查看全部