随着人工智能以惊人的速度发展,安全使用它同时增加其工作量是一个关键问题。训练安全人工智能的传统方法侧重于过滤训练数据或在训练后微调模型以降低风险。然而,在 5 月下旬,Anthropic 创建了其 Claude 3 Sonnet 模型内部运作的详细地图,揭示了类似神经元的特征如何影响其输出。这些可解释的特征可以跨语言和声音或图像等形式理解,对于提高人工智能的安全性至关重要。人工智能内部的功能可以实时突出显示模型如何处理提示和图像。有了这些信息,就可以确保生产级模型避免可能危及安全的偏差和不良行为。
大型语言模型,例如 Claude 3 及其前身 Claude 2 以及竞争对手模型 GPT-4,正在彻底改变我们与技术交互的方式。随着所有这些人工智能模型都获得智能,安全性成为它们之间的关键区别。采取措施提高可解释性,为人工智能行动和决策的透明化奠定基础,从而降低企业大规模使用人工智能的风险。
可解释性为安全人工智能奠定基础
Anthropic 的论文就像“Sonnet”人工智能模型的 FMRI,为语言模型的复杂层次提供了前所未有的视角。神经网络是出了名的复杂。正如爱默生曾经说过的:“如果我们的大脑简单到我们能够理解它们,那么我们就无法理解它们!”
大量研究集中在了解自学学习系统如何运行,特别是在无需人工干预的情况下从未标记数据中学习的无监督或自动编码器模型。更好的理解可以带来更有效的训练方法,节省时间和精力,同时提高精度、速度和安全性。
关于视觉模型的历史研究,其中一些是语言模型出现之前最早和规模最大的研究,直观地展示了模型中的每个后续层如何增加复杂性。初始层可能识别简单的边缘,而更深的层可以识别角落甚至完整的特征,例如眼睛。
通过将这种理解扩展到语言模型,研究展示了各层如何从识别基本模式演变为集成复杂的上下文。这创造了能够对各种相关输入做出一致响应的人工智能——这一属性被称为“不变性”。例如,显示企业销售额如何随时间增长的图表可能会触发与数字电子表格或分析师讨论相同信息的评论相同的行为。就在两年前,这种“即时情报”还被认为是不可能的,但只要它可靠、真实、公正……总而言之,安全,它对商业的影响就不容低估。
Anthropic 的研究从一开始就为整合可解释性奠定了基础。这种积极主动的方法将影响未来人工智能安全的研究和开发。
作品的承诺!展示可扩展性
Anthropic 的 Opus 准备通过证明 Sonnet 的可解释性的成功,测试这些特征是否在更大的范围内成立,将这些原则扩展到更大的模型。关键问题包括 Opus 中的更高级别是否更抽象和更全面,以及这些功能是否仍然可以被我们理解或超越我们的认知能力。
随着人工智能安全性和可解释性的发展,竞争对手将被迫效仿。这可能会引发新一波研究浪潮,重点是在整个行业创建透明和安全的人工智能系统。
这是在一个重要时刻发生的。随着法学硕士在速度、上下文窗口和推理方面的不断进步,它们在数据分析中的潜在应用正在扩大。 Claude 3 和 GPT-4 等模型的集成通过简化复杂的数据处理并为定制的高效商业智能解决方案铺平道路,体现了现代数据分析的前沿可能性。
无论您是数据科学家、洞察和分析团队的一员,还是首席技术官,了解这些语言模型都将有利于释放其潜力,增强各个部门的业务运营。
可解释模型指南
实现可解释性的一个实用方法是让语言模型阐明其决策过程。虽然这可能会导致合理化,但合理的逻辑将确保这些解释是稳健和可靠的。一种方法是要求模型生成逐步的决策规则。这种方法,尤其是道德决策,可以确保透明度和问责制,过滤掉不道德的属性,同时保留标准。
对于非语言模型,可以通过识别“邻居”来实现可解释性。这涉及要求模型提供训练数据中与其当前决策相似的示例,从而深入了解模型的思维过程。一个称为“支持向量”的类似概念要求模型选择它认为可以区分其必须做出的决策的最佳选项的示例。
在无监督学习模型的背景下,了解这些“邻居”有助于阐明模型的决策路径,有可能减少训练时间和功率需求,同时提高精度和安全性。
人工智能安全和大型语言模型的未来
Anthropic 最近的安全人工智能方法不仅为更安全的人工智能系统铺平了道路,而且还制定了一个新的行业标准,从头开始优先考虑透明度和问责制。
至于企业分析的未来,大型语言模型应该开始朝着任务专业化和协作人工智能集群的方向发展。想象一下部署一个廉价且快速的模型来处理原始数据,然后部署一个更复杂的模型来综合这些输出。然后,更大的上下文模型根据大量历史数据评估这些结果的一致性,确保相关性和准确性。最后,一个专门用于真相验证和幻觉检测的专门模型会在发布之前仔细检查这些输出。这种分层策略被称为“图”方法,可以降低成本,同时提高输出质量和可靠性,集群中的每个模型都针对特定任务进行优化,从而为人工智能的决策过程提供更清晰的见解。
将其纳入更广泛的框架中,语言模型成为基础设施的一个组成部分(类似于存储、数据库和计算资源),专为满足不同的行业需求而定制。一旦安全成为核心功能,重点就可以集中在利用这些模型的独特功能来增强企业应用程序,从而为最终用户提供强大的生产力套件。