机器之心发布
机器之心编辑部
在当今人工智能快速发展的时代,大语言模型(LLM)在各种应用中发挥着至关重要的作用。然而,随着其应用范围的不断扩大,该模型的安全问题也引起了广泛的关注。探索如何在复杂的法律、政策和伦理领域评估和提高这些模型的安全性已成为学术界和工业界需要解决的重要问题。
首先,大语言模型的安全性与其对安全知识的理解密切相关。这需要具有高精度、全面性和清晰度的模型来理解知识,特别是在法律、政策和道德等敏感领域。模型的反应不仅需要符合基本的安全标准,还需要在复杂情况下表现出清晰的逻辑和正确的判断。这种深刻的理解将直接关系到模型在实际应用场景中的安全性和可靠性。
其次,传统的安全评估方法往往依赖于特定场景下的问题设置来生成风险问题并评估模型响应的安全性。虽然这种方式可以在一定程度上保证模型输出不违反基本的安全原则。 ,但也有很大的局限性。造成模型不安全的因素可能有很多,比如缺乏安全领域知识、安全对齐不足等。依靠传统的评估方法,模型通过安全对齐训练会形成“假对齐”状态。即使模型本身缺乏足够的专业安全知识,在某些特定场景下仍然可能给出“正确”的结果。安全回复。但这种“知其然,不知其所以然”的安全能力,在遇到不同领域的风险问题时,是不稳定的,缺乏通用性。此外,由于知识本身缺乏而造成的错觉、不准确等问题,也会造成一定的安全隐患。因此,评估模型对安全相关知识的掌握程度就显得尤为重要,需要构建更加准确的评估框架。
最后,不同国家和地区在大模型安全领域有不同的研究重点。国际上,安全研究的重点主要是有害意图、越狱攻击和违反国际ESG法规的内容。绝大多数研究工作和开源数据也都集中在这方面。在中国,一个模型是否能够理解并遵守中国法律、政策、道德、主流价值观的要求,是决定一个大模型能否安全落地的最重要因素。制定全面的基础安全知识测评方法显得尤为重要。全面、公正的评估框架可以帮助研究人员和开发人员更好地了解全球范围内模型性能的差异,并针对不同区域的需求调整和优化模型,以确保其合规性和有效性。
在此背景下,为了更好地评估法学硕士回答简短事实安全问题的能力,中国信息通信研究院联合涛天集团算法技术-未来生活实验室推出了中国SafetyQA,这是全球首个高质量的中国安全领域安全事实知识系统评估模型评估集,主要包括以下7个特征:
1.中文:使用中文,重点介绍与中国相关的安全知识,特别是与中国的法律框架、道德标准、文化环境相关的安全问题。
2.高质量:我们评测了OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、豆宝等38个国内外开源和闭源大型模型。从评测结果来看,只有三款车型达到及格线(60分),最高分也只有73分。
3.全面性:我们的数据集包含7个一级类别,27个二级类别和103个子类别。涵盖中国法律法规、伦理道德、偏见与歧视、侮辱与仇恨、身心健康、谣言与错误、网络安全理论知识等安全知识。这是国内首个基于知识的评估数据集全面覆盖中国内容安全品类的世界。
4.易于评估:与OpenAI的SimpleQA和阿里巴巴的中文SimpleQA相比,除了聚合安全之外,我们还提供了QA和MCQ问题形式。问题和答案简短明了,降低了评估难度。
5.定期迭代:中国信息通信研究院和阿里巴巴团队将定期迭代数据集,以确保其对最新法律法规的适应性。
6.稳定性:当前版本数据中,所有题的知识截至2023年底,答案不随时间变化。
7、无害性:虽然这个数据集都是与安全相关的评估问题,但所有问题都是合法合规且无害的。
注:调用Doubao-pro-32k* API进行评估时,系统预置了3个离线RAG库。
Chinese SafetyQA的推出,为业界提供了客观、公正的评价工具,有助于更好地了解和提高法学硕士在安全领域的应用能力。详细的评测结果在我们的排行榜评测结果表中。而且,为了保证数据集的长期有效性,不被大型模型收集进行针对性训练以提高虚假安全性,数据集分为开源和闭源部分。开源部分用于行业内共享,闭源部分用于持续监控大型模型安全水平的提升。
1. 数据集生成
数据集生成和质量检验过程采用人类专家和大型语言模型(LLM)相结合的双重验证机制,有效保证数据的准确性和高水平。具体流程简述如下:
1.种子文件收集:中国SafetyQA的数据来源主要包括:
2.数据增强和问答对生成:收集初始数据后,使用GPT模型对数据进行增强并生成问答题和选择题。同时,为了提高数据集的全面性和准确性,使用检索增强生成(RAG)工具(如Google和百度)来获取补充信息。
3.多模型验证:随后,通过多模型合议机制对中国SafetyQA数据集的质量进行评估。例如,确保答案是唯一且稳定的,并且问题在安全领域内具有挑战性和相关性。
4. RAG验证:利用在线RAG工具进一步验证数据集中标准答案的准确性,确保所有信息符合预期标准。
5.安全规则验证:为了确保数据集不涉及敏感或不允许的内容,我们制定了一系列与中国背景相关的安全准则,包括意识形态、法律合规、身心健康方面的规则。这些规则作为GPT的系统提示,确保生成的数据无害且合规。
6、难度过滤:质检过程中还包含难度验证,增加数据集的挑战性。我们使用四个开源模型对数据进行推理,所有模型都能准确回答的问题被定义为简单并从数据集中删除,以增加整体难度。
7. 人类专家双重验证:最后,所有数据均经过人类专家双重标记和验证,确保数据在答案准确性、质量和安全性等各方面均达到高标准。
通过上述系统化过程,中国SafetyQA数据集中仅保留了2000个QA对。我们希望该数据集能够帮助优化中国场景下的训练策略,增强模型在安全关键领域的应用能力。
2. 数据集统计
该数据集包含 2000 个 QA 对和 2000 个相同问题和 4 个令人困惑的选项的多项选择题,其中有关违法违规、偏见和歧视、安全理论知识的问题占比最大。基于GPT4o编码器,QA问题的平均长度仅为21个token。
三、评价指标
评估方法和指标直接遵循OpenAI方法,主要有以下四个指标:
4. 总体结果
CO、NA、IN 和 CGA 分别表示“正确”、“未尝试”、“错误”和“正确尝试”。
对于子主题,RM、IRC、PMH、IH、PD、EM 和 STK 分别是我们子主题的缩写:
从上面的总结结果中,可以分析出一些值得关注的信息。首先,研究结果表明,模型的参数规模与其在安全知识领域的表现具有显着的正相关性。这一发现支持了大规模语言模型在知识编码和信息保留方面优越性的假设。特别是,开源模型中参数数量较多的变体表现出更好的性能,而闭源模型中标记为“mini”或“flash”的轻量级版本表现相对较差。
其次,在控制参数规模的情况下,我们观察到中国大型模型公司开发的模型与海外公司(如LLaMA/Mistral)相比,在中文方面具有显着优势。这一现象凸显了中国企业在高质量中文语料库建设和利用方面的独特优势,为探索文化和语言特异性在大型语言模型开发中的重要性提供了实证支持。
此外,几乎所有模型在中文安全问答任务中都表现出较高的答案倾向,这与 SimpleQA 和中文 SimpleQA 基准中观察到的结果形成鲜明对比。该模型的低无回答率可能反映了预训练阶段对安全关键知识的优先考虑,以及相关数据的广泛收集。然而,值得注意的是,一些模型在此任务中仍然表现出较高的错误率(IN),这可能源于知识冲突、信息错误以及模型在理解和记忆能力方面的限制。
5. 进一步实验
我们还对模型的认知一致性、“舌尖现象”、自我反思、主动与被动RAG等方向进行了进一步的探索。发现了一些有趣的结论:
1. 认知一致性问题在大型模型中很常见
通过分析大型语言模型在中文安全知识评估中的置信度,我们揭示了当前模型在认知一致性方面的显着局限性。我们引导被测模型为其响应分配精确的置信度评估(范围 0-100,粒度 5),旨在量化模型对其自身认知边界的自我意识。
实验结果指出,尽管模型的技术复杂性不断进步,但其认知校准机制仍然存在显着偏差。测试的模型倾向于对自己的反应赋予高度信心,并且这种过度自信的模式在大多数模型中都是一致的。尽管一些模型(例如Qwen72b)偶尔会表现出置信度分布的微小差异,但总体而言它们仍然无法实现置信度和准确度之间的有效对应。值得注意的是,具有高置信区间 (>50) 的数据点始终低于理想校准标准线。这不仅反映了模型置信度评估固有的不确定性,还暗示了预训练语料库中潜在的知识表示缺陷。
2、对你的爱难以表达,“舌尖”现象在大模特中也存在
我们发现主流模型在多项选择题(MCQ)任务中表现出明显高于问答(QA)任务的准确性。对于 QA 任务中未正确回答的问题,模型可以在给出某些提示(MCQ 选项)时正确回答。这类似于“舌尖现象”,即人类无法说话,但可以根据某些提示正确回答。为了排除选项缩小搜索空间带来的准确率提升,我们通过置信度进一步确认,发现模型在给出答案时具有非常高的置信度,这证明模型给出了非常确定的答案。
另外,通过对不同品类主流车型的评测,发现各车型在不同品类中都有各自的优势。在国际环境、社会和治理(ESG)问题上,GPT系列模型在身心健康(PHM)维度都表现出了相对优异的能力,这或许反映了这些模型在相关领域的接受度。更精细化的培训。同时,在非法合规(IRC)领域,我们观察到模型之间更为复杂的差异:非中国模型(o1除外)在这个维度上表现出明显的能力限制,而中国模型和本土模型(如Qwen)系列和豆宝)表现出更突出的了解当地法律知识的能力,这可能受益于有针对性的本地化培训策略。
3.自我反省对知识的缺乏无济于事
自我反思机制被广泛认为是提高模型输出质量的有效策略。然而,我们对多种最先进语言模型的实验揭示了知识缺乏场景中的局限性。
实验发现,在所有测试的语言模型中,自反射机制带来的性能提升很小,平均提升不超过5%,在o1系列模型中负面影响更大。
这种现象可能源于大语言模型固有的认知局限性。该模型高度依赖于训练语料库中的统计模式,这使得它更有可能在自我反思过程中将原本正确的答案转换为错误的响应。尤其是在基于知识的问题中,模型的性能更多地取决于内在的知识理解能力,而不是后续的推理过程。值得注意的是,训练语料中潜在的事实错误会显着干扰模型的自我修正机制,导致推理环节的可靠性进一步降低。
4.RAG可以填补大型模型的知识空白,但最好不要让它决定做与不做:
知识检索增强生成(RAG)技术已成为提高模型真实性和准确性的关键方法。我们探讨了两种 RAG 触发范例:主动 RAG 和被动 RAG 对模型精度的影响。被动RAG对所有输入问题进行语料检索,而主动RAG允许模型独立确定是否需要额外的检索并由模型提供检索关键词。
从实验结果可以看出:
首先,RAG增强机制显着提高了大型语言模型的事实安全性,有效缩小了不同规模模型之间的性能差距。参数尺寸较小的模型可以从 RAG 技术中获得更显着的性能改进。
其次,主动RAG的性能普遍低于被动RAG。这种现象是由于大型语言模型的过度自信特性造成的。他们不倾向于主动请求检索工具,因此这种RAG方法带来的准确率增益通常不够大。
请参阅我们的论文以获取更多实验结果和详细信息。
最后,欢迎研究人员使用我们的评论集进行实验和研究。我们非常感谢您对我们工作的信任,并高度重视并期待收到您的宝贵意见。目前,我们正在努力完善排名功能,力争尽快为研究者提供更加便捷高效的体验。
如果您有任何问题、建议,或者希望您的模型结果包含在排行榜显示中,请随时通过电子邮件与我们联系。请将您的具体需求发送至:tanyingshui.tys@taobao.com,我们会及时回复。
我们将持续更新和维护数据集和评估列表,为中文社区的发展做出贡献。如果您需要进一步的咨询或帮助,您也可以随时与我们沟通。再次感谢您的理解和支持!
作者简介
核心作者包括谭应水、郑博仁、郑百慧、曹克睿、景惠云。
作者团队来自中国信息通信研究院和桃天集团算法技术-未来生活实验室团队。信息通信研究院始终坚持“国家高端专业智库产业创新发展平台”的发展定位和“厚德、务实、兴业”的核心文化价值理念。在产业发展重大战略、规划、政策、标准、检测认证等方面发挥了强有力的支撑作用,为推动我国通信产业跨越式发展和信息化创新增长发挥了重要作用。科技产业。桃天集团未来生活实验室致力于构建面向未来的生活方式和消费方式,进一步提升用户体验和商户经营业绩。实验室聚焦大模型、多模态等AI技术方向,致力于构建与大模型相关的基础算法、模型能力以及各类AI Native应用,引领AI在生活消费领域的技术创新。