发布信息

旅游博主福瑞环宇用DeepSeek创作使徒保罗诗,AI文风温暖惊艳

作者:软荐小编      2025-02-12 15:01:25     84

旅行博客作者“ Furi Huanyu”与DeepSeek一起写了一首关于使徒保罗的诗。写作后,博客作者叹了口气:“当我写出来时,我只想去地面找到我的下巴。它实际上可以控制特洛伊,而Tro Ya的区别是如此清晰,以至于他还艺术上写下了Troja的位置和两个重要的作品。保罗在特洛伊木马发生的事情,也呈现了一个完全策划的保罗,最后一句话是埋葬的。

01

训练后的两个步骤共同实现了华丽的风格

实际上,DeepSeek不仅知道如何写诗歌,而且其周到的答案风格使许多用户称其为“戳戳中心”。毫无疑问,DeepSeek华丽的抒情和令人痛苦的风格显示了AI的温暖一面。那么,哪种技术有助于这种风格?

上海Jiotong大学副教授赵博说,通过一些试验,可以发现DeepSeek主要包括八个角色设置:电影角色,新闻主持人,历史人物,动画游戏,动画游戏,文学角色,专业人物,有趣的角色和科学小说字符。每个主要角色类别都包含经典字符。 DeepSeek可以根据用户要求与用户互动,模仿特定字符的语言或写作样式。此能力来源是自然培训数据,它要求DeepSeek的开发人员收集相应的对话和说明,以遵循数据的丰富角色/样式/场景。这些数据的来源可能是原始数据,手动标记数据,模型综合数据等。

美国耶鲁大学的助理教授Yang Zhuoran从微观的角度做出了一些解释。他说,根据DeepSeek-V3技术报告,DeepSeek的华丽写作风格主要是通过训练后阶段的两个步骤实现的。

第一步是监督微调(SFT,监督微调)。在监督的微调阶段,该模型暴露于大量的语言表达示例,尤其是用于非推动任务(例如创意写作)的数据。 Yang Zhuoran说,专门针对创意写作任务,最初的答案是由DeepSeek -V2.5生成的,然后手动审查以确保内容的准确性和样式的一致性。正是在数据的这一部分中,该模型学习了大量精美的语言表达和精确单词的例子,这为随后一代的华丽写作风格奠定了基础。

第二步是增强学习(RL,增强学习)。在强化学习阶段,该模型使用奖励机制进一步优化了结果的产生。对于诸如创意写作之类的开放任务,奖励模型将对生成的答案进行评分,不仅要求答案是准确的,而且还鼓励模型在措辞,句子结构和逻辑方面更加精致和文学。奖励模型是根据在监督的微调阶段获得的DeepSeek-V3检查点训练的,并通过高温采样和多步优化训练,该模型逐渐整合了一代中精美的修辞和精致表达方式。

北京邮政与电信大学副教授Bai Ting结合了DeepSeek的模型,并从宏观的角度做出了一些解释。她说,DeepSeek曾经在其技术报告中提到了一些关键技术:例如,DeepSeek-V2使用多头潜在的关注和稀疏的MOE体系结构,其中多头潜在的注意是提高模型效率,而MoE Architecture则可以使用多种方法。专家提高模型能力的能力。 DeepSeek-V3将多功能架构添加到辅助功能中,以进行负载平衡优化,并增加了增强的增强学习。 DeepSeek-R1版本解决了模型推理功能。它直接使用强化学习来指导思维链的产生,并通过知识蒸馏为小型模型提供更大的功能。

Bai Ting指出,DeepSeek使用的技术不是原始的。学术和行业以前已经开始使用这些技术,有些团队甚至比DeepSeek更好地做一些个人技术。 “为什么DeepSeek如此成功和专心?我认为它包含了许多大型模型研究人员看不到的两件事:许多计算资源和许多高质量的培训数据以及适当的培训策略。”表达。关于计算能力无需说太多,而强大的大型公司在这方面基本上是可比的。与其他模型相比,华丽的写作风格或DeepSeek的回答更像是“人类”,因为它受到上述关键技术手段的影响,但是更关键的核心要素是高质量的培训数据,培训策略和大型迭代优化的数量结果。

02

数据是一个模型:数据质量驱动模型性能

2024年3月,DeepSeek研究人员Chen Deli在一次行业会议上发表了题为“危害但差异:大型语言模型价值观的一致性和解耦”的演讲。在演讲中,他提到:“在实际模型生产中。”在此过程中,我们将进行模型的迭代发展;也就是说,在每一轮培训之后,将有一个独立的测试团队在上面提到的每个维度中充分测试模型的安全性,并给出指导的反馈。在下一个周期进行数据迭代和模型培训。 “可以看出,DeepSeek必须在模型数据中具有独特的功能。

_炼成什么意思_炼成的意思

Yang Zhuoran指出,数据质量对于模型培训至关重要,这不仅影响了模型获取和表达知识的能力,而且还决定了模型生成的内容的样式和准确性。

首先,高质量的数据可以改善模型表达和推理功能。质量数据包含准确,连贯和表达的语言样本。例如,包含链思维的数据(COT)可以指导模型在推理时反映,然后在生成答案时显示清晰的逻辑和美丽的语言表达。这是模型可以同时生成准确和华丽的写作风格的关键因素之一。

其次,高质量的数据可以降低噪声并确保一致性。数据中的错误,噪声或不一致的信息可能会在模型生成的内容中引起语法或逻辑问题。高质量的数据可以有效地减少这些问题,从而使模型可以更好地学习语言规则,从而提高整体发电质量。

第三,高质量的数据可以提高概括能力。数据的多样性和全面性允许模型在面对不同的字段和任务时产生高质量的答案。丰富而准确的样本可以在各种情况下自由地自由使用模型开关样式,无论是精致的技术解决方案还是具有出色文学风格的创意写作,都可以轻松使用它们。

第四,少量高质量数据可以显着提高模型能力。最近的一些论文,例如“ S1:简单的测试时间缩放”和“ Limo:更少的推理”,这也强调了数据质量极为重要。即使只有少量的高质量数据,该模型的功能也可以显着改善,因为高质量数据中包含的信息更准确和代表性,为该模型提供了有效的学习信号。 “此'完善'数据不仅有助于该模型在推理和发电方面达到更高的水平,而且还可以更快地收敛并降低培训成本。”杨Zhuoran说。

Bai Ting也同意上述观点。她说:“以Baijia.Online为例,我们开发了一个例子,我们对阿里巴巴Qwen-7B进行微调的结果超过了DeepSeek-2.5-238B。”当收集大量的低资源和分散以构建培训数据和培训策略时,模型基础的强度不再是实现决定性因素的关键。也就是说,使用高质量培训数据可以大大提高大型模型在某些目标任务上的能力。实际上,DeepSeek还具有角色扮演能力,例如它可以很好地扮演Li Bai。但是,对于低资源角色,效果相对平均,因此数据质量和培训策略是其背后的两个主要原因。 “例如,我们开发的一百个代理模型使用RLAIF来迁移信息,例如朝代和背景,具有丰富的资源和角色与低资源字符的结构合作。”她说。

DeepSeek的答复比其他模型更具风格,例如更加生动和严格,这实际上反映在工程师的构造和促使对话数据的方法中。至于模型产生的内容质量的影响,一个是通过预训练将所有数据内部化为模型,而另一个是通过检索回忆更准确的知识。前者非常普遍,但容易出现幻觉。毕竟,庞大的知识会导致混乱,并且不能集中和深刻。后者是一种人类计算机协作方法。检索到的内容可以是人类具有一定程度信誉的人类构建的网页内容,历史材料等,使大型模型答复更加可信。

赵博还说,数据质量在模型培训中起着决定性的作用。可以说,数据是一个模型,并且质量较高的数据是您可以获得的更强大的模型。随着培训数据的连续收集,大型模型研究团队对数据的关注逐渐从数据量表转变为数据质量。大量示例已经证明,可以训练小规模的高质量数据以获得比大型低质量数据更好的模型,并且培训成本较低。 Zhao Bo举了一个例子,称Microsoft在2023年的PHI-2模型使用“教科书质量”培训数据来实现小型模型的高性能。此外,合成数据已成为大规模培训数据的重要来源,并且可以通过合成以低成本获得大量高质量数据。目前,主流大型模型的培训使用大量合成数据。 Zhao Bo和他的团队还于2023年7月推出了针对多模式大型模型的一百万级高质量的合成数据集SVIT。

03

结尾

Bai ting补充说,无论是AGI还是代理,它本质上都是模拟和超过人类,目前是最高级别的代理。从DeepSeek设计的角度来看,无论是早期DeepSeek-V2版本中多个专家MOE的小组决策,还是在DeepSeek-R1版本中思考链的推理能力,还是提高知识学习能力蒸馏,它们可以以非常一致的方式对应于人类。做出决策时采取的反应和行为。但是,仅这些能力就远非足够。在大型模型的后期,在开发,超越,超越和为人类服务时,都需要使用更有效,更强大的记忆系统,移情能力,反思和演变能力以及个性化功能。在这里,我也期待着DeepSeek带来更多惊人的表演。

相关内容 查看全部