鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
大模型时代,读论文这事儿真是越来越爽了~
你敢相信,这样的论文不是中文的原版。它是出自翻译软件之手的翻译版。
原文长这样:
译文流畅,并且公式图表也很整齐,没有丝毫混乱。原原本本地保持清晰美观,各种图注表头都能进行翻译,且翻译得很到位。
在大模型的加持下,遇到有疑点的地方,直接把相关内容划线引用后就能提问,再也不用担心没有人一起讨论最新的前沿科技进展,也不会因为被导师询问而哑口无言了。
都说搞科研英语必须很厉害。然而,毕竟不是母语者,想要像阅读中文那样迅速抓住重点并且能够一目十行,确实门槛比较高。
知乎曾有这样一个问题引发了热烈的讨论,即“英文 SCI 是否对中国人的阅读进行了限制”?
高赞回答都纷纷表示,看到中文比看到英文更流畅这是事实。在那时候,也有人想象,未来翻译软件的能力持续提升,对于从事科研的人来说,语言方面的门槛将会大幅度降低。
大模型出现了,就在短短几年的时间里,将畅想转化为了现实。 大模型的出现,在这短短几年间,把人们的畅想变成了实际的存在。 大模型的出现,仅仅在短短几年内,就把曾经的畅想变为了现实。
上述的读论文新神器是百度翻译的新功能,这个新功能是 AI 论文精翻。
输入PDF论文,实测几分钟就能得到一份堪比原版的精细译本。
再也不用怕AI论文每天飞速更新,Boss嫌我跟进太慢了。
像读中文论文一样读英文论文
翻译论文PDF,其实说起来并不是什么新鲜事。
用过的朋友都清楚,以往翻译软件翻译论文时,存在着以下几个明显的问题:其一,翻译质量往往不够精准,难以准确传达论文中的专业术语和复杂语义;其二,翻译后的语句往往不够通顺流畅,存在语法错误或逻辑不清晰的情况;其三,翻译软件在处理不同领域的专业论文时,可能会出现适应性不佳的问题,导致翻译结果与原文的风格和意图相差较大。
因而此番百度翻译“AI论文精翻”的目标也很明确:
阅读英文论文如同阅读中文论文。在翻译后的版本中,要尽量给予与原版论文一样的阅读感受。
论文精翻大模型+LaTeX专业排版
百度翻译此前就已经利用翻译大模型技术,对翻译体系进行了重塑。它一方面能够结合上下文,依据语境给出更精准、更地道的译文;另一方面在翻译工作之外,还可以通过 AI 助手与用户展开互动,从而提供更为深入、多元的翻译服务。
在此基础之上,AI 论文精翻有论文精翻大模型的加持。这样它能做到术语翻译更加精准,也能提供更自然的阅读体验。
将刚出炉的 OpenAI 论文进行一键上传,要求文件大小不超过 50M 且字数在 5 万字以内。很快,用不了 1 分钟,39 页的英文论文就被成功翻译成了排版精美的中文论文。
对比细节可以发现,这是百度翻译的版本:
因此会有人问,能否通过把思维链监测器直接纳入代理的训练目标,从而抑制这些漏洞呢?
这是谷歌翻译的版本:
因此会自然地产生疑问,是否能够通过把 CoT 监视器直接融合到代理的训练目标之中,以抑制这些漏洞。
从自然程度方面来看,百度翻译的译文更自然;从术语精准程度方面来看,百度翻译的译文更精准。所以,百度翻译在 AI 论文精翻方面更胜一筹。
值得一提的是,此次 AI 论文的精翻工作特意加入了 LaTeX 排版。这样一来,翻译后的版本在外观上与原版更加一致,显得更加专业。
这实际上解决了另一个科研人员的痛点:对于翻译版本总是不放心,时常需要跟原文对照着来看,这影响了效率的进一步提升。
旗舰大模型搞定泛读+精读
论文精翻大模型的作用是增强翻译的精准性和流畅度。百度自家的文心大模型承担起了实时互动问答的部分。
在 AI 论文精翻的功能界面中无需跳转,侧边栏内置有 AI 助手。
一键就能速读摘要,快览全文,帮忙完成论文泛读。
论文的细节方面,你可以针对不会的地方进行提问。如果没有提问的思路了,AI 助手还会给出提示。
论文搭子,这不就有了吗(doge)?
大模型让翻译彻底变革,真香
基础模型在不断增强,过去翻译软件所具备的功能,呈现出有被以 GPT 为代表的大模型产品所取代的态势。
但与此同时,与大模型的结合,也正在让翻译软件全面进化。
事实上,与通用大模型产品相比,翻译软件仍具有独特的优势点:
翻译的质量取决于模型本身,同时也取决于系统工程与企业级服务的深度融合。
用通俗的话来讲,其一,是经过多年的精心打磨,翻译软件通常在各类垂直领域里有着更丰富的语料积累。
以百度翻译为例,百度翻译打造了专为解决翻译场景问题的翻译大模型,该模型基于海量垂直领域语料进行了定向优化,这些语料涵盖了法律、金融、医疗、IT 等几十个专业领域。
其二,翻译软件对于用户的具体需求关注时间更久,并且对用户的痛点把握更精准。
比如,在文档解析方面,百度翻译对于常见的 Word 格式文档具备高度还原的能力,其 MQM(多维度质量评估体系)评分达到了 92 分以上;对于常见的 PDF 格式文档也具备高度还原的能力,MQM 评分达到 92 分以上;对于常见的 txt 格式文档同样具备高度还原的能力,MQM 评分在 92 分以上;对于常见的 Excel 格式文档也具备高度还原的能力,MQM 评分达到 92 分以上。
另外,百度翻译的智能切句送翻功能,能够避免普通切句所引发的语义割裂问题,从而提升翻译效果;它具备实时术语干预的能力,中英翻译术语的采纳率超过 98%;还有译后编辑功能,能够实时修改译文并且自动沉淀学习,以实现越翻越准的效果。
安全合规体系方面,百度云对象存储通过多项安全认证,如 ISO27032、ISO27017 等,并且承诺客户数据不会被用作百度训练数据。
简而言之,在“翻译”这一具体的产品和功能形态方面,翻译软件正通过全面接纳大模型,在革新自身的同时,将工程和产品实践的优势发挥到最大。
2025 年,大家感到惊喜。基础大模型在不断进化。基础大模型在相互竞争中持续突破能力边界。
但从 AI 模型落地这一角度来看,或许更大的机会点存在于通用模型能力向垂直场景的下放。
AI 原生应用自不必说,像百度翻译这样的“传统”应用也在经历着彻底的变革,并且能够在其自身业务积累的基础之上,达成更优的交互体验。
对于咱们用户而言,主打一个:
从翻译本身的角度来看,在 DeepSeek 和 Manus 引发全球讨论的背景之中,中国的科研力量正越来越多地受到全世界的关注。
图灵奖得主 LeCun 在最新的访谈里,对来自中国团队的创新成果给予了肯定,并且说道“世界上的任何地区都不可能垄断好的创意”。
那么,当语言的门槛进一步被技术所抹平,科研也将更加平等。
你觉得呢?
— 完 —