发布信息

2024 年 NIST 发布草案,为生成式 AI 系统安全软件开发实践提供指导

作者:软荐小编      2024-10-18 15:02:14     207

2024 年 4 月,美国国家标准与技术研究院发布了一份出版物草案,旨在为生成式 AI 系统的安全软件开发实践提供指导。根据这些要求,软件开发团队应该开始实施强大的测试策略,以确保他们遵守这些新准则。

测试是人工智能驱动开发的基石,因为它验证基于人工智能的工具的完整性、可靠性和健全性。它还可以防范安全风险并确保高质量和最佳性能。

测试在人工智能中尤为重要,因为被测试的系统远不如编码或构建的算法透明。人工智能有新的失败模式和失败类型,例如语气、隐性偏见、不准确或误导性的反应、监管失败等等。即使完成开发后,开发团队也可能无法自信地评估系统在不同条件下的可靠性。由于这种不确定性,质量保证 (QA) 专业人员必须挺身而出,成为真正的质量倡导者。此指定不仅意味着遵守一组严格的要求,还意味着探索确定边缘情况,参与红队以尝试迫使应用程序提供不正确的响应,并暴露系统中未检测到的偏差和故障模式。彻底而好奇的测试是良好实施的人工智能计划的守护者。

一些人工智能提供商,例如微软,需要测试报告来提供针对版权侵权的法律保护。对安全可信人工智能的监管将这些报告作为核心资产,它们频繁出现在美国总统乔·拜登 2023 年 10 月关于安全可信人工智能的行政命令和欧盟人工智能法案中。对人工智能系统进行彻底测试不再只是确保流畅一致的用户体验的建议,而是一种责任。

什么是好的测试策略?

任何测试策略中都应包含几个关键要素:

风险评估——软件开发团队必须首先评估与其人工智能系统相关的任何潜在风险。此过程包括考虑用户如何与系统功能交互以及故障的严重性和可能性。人工智能带来了一系列需要解决的新风险。这些风险包括法律风险(代理代表公司提出错误建议)、复杂质量风险(处理非确定性系统、隐性偏差、伪随机结果等)、性能风险(AI 计算密集且云 AI 端点存在局限性) )、运营和成本风险(衡量运行人工智能系统的成本)、新颖的安全风险(即时劫持、上下文提取、即时注入、对抗性数据攻击)和声誉风险。

了解局限性——人工智能的好坏取决于它所提供的信息。软件开发团队需要意识到其学习能力的界限以及人工智能特有的新颖故障模式,例如缺乏逻辑推理、幻觉和信息合成问题。

教育和培训——随着人工智能使用的增长,确保团队接受其复杂性的教育——包括培训方法、数据科学基础知识、生成人工智能和经典人工智能——对于识别潜在问题、理解系统行为和获得最大价值至关重要使用人工智能。

红队测试——红队人工智能测试(红队)提供了一种结构化的工作,可以识别人工智能系统中的漏洞和缺陷。这种类型的测试通常涉及模拟现实世界的攻击和练习持续威胁行为者可能用来发现特定漏洞并确定风险缓解优先级的技术。这种对人工智能模型的刻意探索对于测试其能力极限并确保人工智能系统安全、可靠并准备好预测现实世界场景至关重要。红队报告也正在成为客户的强制性标准,类似于人工智能的 SOC 2。

持续审查——人工智能系统不断发展,测试策略也应如此。组织必须定期审查和更新其测试方法,以适应人工智能技术的新发展和要求以及新出现的威胁。

文档和合规性——软件开发团队必须确保所有测试程序和结果都有详细记录,以用于合规性和审计目的,例如符合新的行政命令要求。

透明度和沟通——对利益相关者和用户公开人工智能的功能、可靠性及其局限性非常重要。

虽然这些考虑因素是制定与不断变化的监管标准相一致的稳健人工智能测试策略的关键,但重要的是要记住,随着人工智能技术的发展,我们的测试和质量保证方法也必须不断发展。

改进测试,改进人工智能

未来几年,人工智能只会在软件开发中变得更大、更好、更广泛地采用。因此,需要更严格的测试来应对更先进的系统和数据集带来的不断变化的风险和挑战。测试将继续作为确保人工智能工具可靠、准确且负责任地供公众使用的关键保障。

软件开发团队必须制定强大的测试策略,不仅满足监管标准,还要确保人工智能技术负责任、值得信赖且易于访问。

随着人工智能在各行业和技术中的使用不断增加,及其在美国和全球相关联邦标准和指南中的前沿地位,现在是开发变革性软件解决方案的机会。开发者社区应该将自己视为这项工作的核心参与者,通过制定有效的测试策略并提供植根于信任和可靠性的安全可靠的用户体验。

您可能还喜欢……

人工智能监管对研发的影响

欧盟通过《人工智能法案》,这是一项基于风险的全面人工智能监管方法

相关内容 查看全部