发布信息

ChatGPT成恐怖分子帮凶?AI安全风险真实上演,2025年或迎首起AI安全事件

作者:软荐小编      2025-01-10 16:01:44     117

新年伊始,ChatGPT成为“恐怖分子”的帮凶?在向一名美国现役士兵提供爆炸知识后,后者成功引爆了酒店门前的一辆特斯拉赛博卡车……

_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费

汽车爆炸现场镜头,截图自外媒视频

这不是科幻电影中的场景,而是文明周围发生的人工智能安全风险现实的缩影。著名AI投资人Rob Toews在《福布斯》专栏中预测,2025年我们将迎来“第一次真正的AI安全事件”。

罗布·托斯(Rob Toews)写道,我们已经生活在另一种形式的智慧生命中,它和人类一样不可预测且具有欺骗性。

无独有偶,另一份新发布的行业预测也指出了同样的问题。北京致远研究院描绘了2025年十大人工智能技术趋势中从基础研究到应用实现再到AI安全的全貌。值得强调的是,AI安全作为独立的技术赛道,被Wisdom评为第十大趋势来源:

提升模型能力与风险防范并重,人工智能安全治理体系不断完善。

报告评论道:作为一个复杂系统,大模型缩放带来了涌现,但复杂系统独特的属性如不可预测的涌现结果和循环反馈也对传统工程的安全保护机制提出了挑战。自主决策基础模型的不断进步带来了潜在的失控风险。如何引入新的技术监管手段,人工监管中如何平衡行业发展与风险管控?这是一个值得人工智能相关各方持续讨论的问题。

AI大模型安全水深水流快

2024年,在AI大模型实现跨越式发展的同时,我们也可以清晰地看到安全的敏感神经是如何被刺激的。

研究表明,人工智能安全风险可分为三类:内生安全问题、衍生安全问题和外生安全问题。

“内生性安全问题”(如“数据中毒”、“价值对齐”、“决策黑匣子”)是大模型的“遗传问题”——庞大的结构、海量的参数、复杂的内部交互机制,使得模型既强大又难以导航。

很多人都知道“诗”重读漏洞——重复一个单词可以让ChatGPT吐出真实的个人信息。这是因为在大模型学习过程中,除了提取语言知识之外,还会“背诵”一些数据。结果,数据隐私在某种程度上被削弱。意想不到的、荒唐的方式被触发。

_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费

_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费

机器的心脏曾经要求ChatGPT反复重复“AI”这个词。一开始它很听话,一直重复着。在重复了“AI”1395次之后,它突然改变了话题,开始谈论圣莫尼卡,而这些内容很可能是ChatGPT训练数据的一部分。

提示攻击的发生是因为系统提示和用户输入都采用相同的格式——自然语言文本字符串,而大型语言模型无法仅根据数据类型来区分指令和输入。

“越狱”的手段也层出不穷。从“奶奶漏洞”、“冒险家漏洞”、“作家漏洞”到最新的“DeceptiveDelight”技术,攻击者只需要3次对话就有65%的概率绕过安全限制,让模型生成违禁内容。

ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_

Deceptive Delight 攻击示例,来源 Palo Alto Networks

Anthropic 的最新研究甚至发现,大型语言模型实际上已经学会了“伪装对齐”。

更令人担忧的是大型机型在工业领域的表现。大型模型在一般对话中表现流畅。清华大学、中关村实验室、蚂蚁集团等机构联合撰写的《大模型安全实践(2024)》白皮书指出,在金融、医疗等领域,对模型输出的专业性和准确性要求极高。高场应用面临严峻的挑战,包括严重的幻觉和缺乏复杂的推理能力。

展望2025年,知识产权研究院预测Agentic AI将成为大模型应用的主要形式。这些更加自主的主体将深度融入到工作和生活中,这也将增加系统失控的风险。

试想一下,在未来两到三年内,我们可能生活在一个每个人都有数十或数百名特工为我们工作的世界。安全基础设施建设显得尤为重要。谁将提供这些安全基础设施?如何管理这些AI代理?如何保证他们不失控?

目前大模型安全评估主要关注内容安全,对于Agent、未来AGI等复杂应用架构的安全评估体系还存在不足。

人工智能安全风险的另一个主要来源是“衍生安全问题”。由于人工智能滥用导致其他领域的一些重大安全事件,如假新闻、深度造假欺诈、侵犯知识产权、教唆青少年自杀、作弊等,也给社会治理带来负面影响。提出了重大挑战。

“真理”的基本命题正面临着前所未有的挑战。西藏日喀则地震期间,“压碎瓦砾下戴帽子的孩子是AI生成的”的新闻成为热搜话题,不少平台账号转发图片时都以为是真的。除了金融诈骗,深度伪造也将网络性暴力推向了极致。 “厌女文化”盛行的韩国成为重灾区。世界经济论坛甚至将人工智能选举操纵列为 2024 年的第一大风险。

ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_

这张图片被该平台多个账号发布,并与地震相关,引起网友关注和转发。经媒体核实,上图是由AI工具制作而成。原作者于2024年11月18日发布了同一张图片的短视频,并表示是由AI生成的。

版权是另一个大问题。 OpenAI、Anthropic、Suno 等领先者都曾深陷版权泥潭。近日,爱奇艺起诉一家大型模特公司利用AI对经典影视剧片段进行神奇修改,开创了国内AI视频侵权诉讼的先例。

第三类“外生安全问题”是指人工智能系统受到外部网络攻击,如平台和框架安全漏洞、模型被盗、数据泄露风险等,属于传统信息安全范畴。

以更严重的数据泄露为例。目前,AI模型推理的更好选择是以纯文本形式进行。用户将输入大量真实且敏感的数据来获得模型建议。报告显示,到 2024 年,企业员工上传到生成式 AI 工具的敏感数据将增加 485%,包括客户支持信息、源代码和研发数据。

企业安全培训和政策制定的滞后引发安全担忧。由于担心敏感数据泄露,美国众议院于 2024 年 3 月禁止员工使用 Microsoft Copilot。

由于不同类型的数据(如文本、图像、视频、音频)在数据规模和处理要求上存在巨大差异,被寄予厚望的大型多模态模型让数据安全保护变得更加困难。

跨越激流,构筑多维安全通道

人类开启了深度智能时代的大门,安全问题也迎来了质变的时刻。

2024年,整个行业、政府、国际组织在人工智能治理方面做了大量工作,从技术研究、治理框架到国际合作进行了多种形式的探索。数字时代积累的安全对策能力,使中国在大模型的应用和治理方面走在世界前列。

在监管层面,中国是全球最早对生成式人工智能进行监管的国家之一。继2023年5月《生成式人工智能服务管理暂行办法》发布后,《网络安全技术生成式人工智能服务基本安全要求》也进入公开征求意见阶段,多项规范正在制定中。

在底层关键技术研究方面,国内产业已取得积极成果。例如,北京致远研究院开发了大型防御模型和人工智能监管模型,并在对线优化方面进行了创新。

由于预训练后模型形成的分布结构相对稳定,大模型具有“抗微调对齐”的特性。单纯通过后期微调来实现对齐往往并不能得到满意的结果。对此,致远提出在预训练阶段对齐所有参数。所需的表示功能已融入模型架构中。

在对齐优化过程中,致远采用了迭代训练的方式来解决未对齐答案和对齐答案之间的偏差,更有利于模型从原始问题到对齐问题的训练,取得了良好的效果。

在多模态对准方面,智源推出的“align everything”框架实现了多模态信息的全面对准。其创新之处在于多模态信息、现实世界的具身认知和人类意图的细粒度整合。对齐积分在 LLaMA 模型的微调过程中显示出显着的效果。

同样是为了解决大模型的可控性问题,蚂蚁集团的应对措施是将知识图谱的优势——逻辑推理能力强、知识准确可靠——与大模型结合起来。通过将符号知识引入大模型预训练、提示指令、思维链、RAG(检索增强生成)和模型对齐中,有效增强模型输出的专业性和可靠性。

作为通用技术,大型模型既可以用于“攻击”,也可以用于“防御”。在拥抱大模型、用AI打AI方面,华为、蚂蚁集团、360集团、深信服等厂商都进行了有益的探索。

华为提出业界首个L4级AI安全代理,利用大模型加上一些安全知识图谱,实现安全深度推理,发现一些以前未被发现的安全攻击。

蚂蚁集团发布了一体化大模型安全解决方案“倚天剑”,包括大模型安全检测平台“倚天剑”和大模型风险防御平台“天剑”两大产品。它有两大核心安全技术:检测和防御。能力。

_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费

“一建”是全球首个实现工业级应用的可信AI检测平台。它利用生成能力来检测生成系统,涵盖内容安全、数据安全、技术伦理等所有风险类型。适用于文本、表格、图像、音频、视频等全数据模式。

在防御能力方面,“天剑”会动态监控用户与模型之间的交互,防止诱发攻击。同时会对生成的答案内容进行风险过滤,保证大模型上线后从用户输入到生成输出的整体安全防御。

360集团推出了基于类脑分区专家协同架构的大安全模型。通过EB级安全数据训练,具备L4级“自动驾驶”能力,实现了从威胁检测到源头溯源分析的全流程自动化。

深信服“安全GPT”可提供7×24小时实时在线智能值守,提高安全运营效率,同时深度挖掘高对抗、高绕过的网页攻击和钓鱼攻击等难以检测的攻击行为。传统的安全设备。

除了监管和关键技术的推进,业界也在积极加强AI安全协作。

在安全治理领域,模型安全评估是非常重要的环节。 2024年4月,联合国科技大会发布了两项大型模型安全标准。其中,蚂蚁集团牵头制定了《大语言模型安全测试方法》,首次给出了四种攻击强度分级,并提供了可衡量的安全评估标准:L1随机攻击、L2盲盒攻击、L3黑盒攻击和L4白盒攻击。

这种分类不仅考虑了攻击的技术复杂程度,更重要的是根据攻击者可以获得的模型信息程度,这使得防护措施的部署更有针对性。

在推动国际对话方面,2024年3月,北京致远研究院发起并主办我国首届人工智能安全国际对话高端闭门论坛,并与全球人工智能共同签署《人工智能安全北京国际共识》领导、学者和行业专家,划定模型安全红线,禁止模型自我进化、自我复制和无节制算力增长,确保开发者遵循严格的安全标准。

9月,一场促进人工智能安全的全球对话在威尼斯落下帷幕。图灵奖获得者约书亚·本吉奥、姚期智等科学家共同签署《人工智能安全国际对话威尼斯共识》,强调人工智能安全作为“全球公共产品”的重要性。

放眼全球,英国和美国注重轻触式监管,加州的SB 1047则因争议而被否决。欧盟人工智能法案已生效。建立四级风险分级体系,明确人工智能产品全生命周期监管要求。

业界各大领先的AI公司纷纷发布安全框架。

OpenAI在核心安全团队解散后公布了十大安全措施,试图在技术创新和社会责任之间找到平衡。

谷歌还发布了SAIF安全框架,以应对模型盗窃和数据污染等风险。

Anthropic发布了负责任的扩展政策(RSP),该政策被认为是减少人工智能灾难性风险(例如恐怖分子使用模型制造生物武器)的最有前途的方法之一。

RSP 最近进行了更新,引入了更灵活、更细致的风险评估和管理方法,同时坚持在没有足够保障措施的情况下不训练或部署模型。

ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费_

一年多前,《经济学人》开始讨论人工智能的快速发展是如何既令人兴奋又令人恐惧。我们应该有多担心?

2024年初,中国社会科学院大学在一份研究报告中指出,安全技术将成为社会的公共产品,未来将与人工智能并列为两项通用技术。一年后,致远研究院再次呼吁关注安全治理,印证了这一战略判断的前瞻性。人工智能越强大,安全技术的价值也会随之增加。

我们不可能丢掉利刃、放弃技术。我们只能为它打造一个足够安全的护套,让人工智能在造福人类的同时始终走在可控轨道上。风云变幻之中,AI安全治理或许是AI行业永恒的话题。

相关内容 查看全部