发布信息

Grok 大模型实现重大突破:能看懂图像,推动科学文献数字化进程

作者:软荐小编      2024-10-29 21:01:42     75

大 Grok 模型终于理解图像了。

想象一下,如果我们能够将所有LaTeX之前的文本资料输入到一个先进的大语言模型(LLM)中,并从中获得标准化的LaTeX文档库,这无疑将极大地促进科学文档的数字化进程和标准化。 。对于科研人员来说,这不仅是技术上的飞跃,也标志着知识管理和信息传播方式的重大变革。

马斯克旗下人工智能公司 xAI 发布的 Grok 大模型有助于实现这一目标——经过最近的更新,Grok 大模型终于可以理解图像,甚至可以进行公式 OCR 和解释笑话。 。

写论文打公式_写论文用公式编辑器_

AI销售和营销自动化平台Amplemarket的创始人Luis Batalha在试用后表示:在Grok的帮助下,他能够将理论物理学家费曼的博士论文中的公式转换为LaTeX。

_写论文打公式_写论文用公式编辑器

转换前的文本如下所示:

_写论文用公式编辑器_写论文打公式

可以看到里面的公式基本都是手写的,肉眼很难识别。 Grok 可以将它们转化为如此简洁的结果,并且具有惊人的准确性。

_写论文用公式编辑器_写论文打公式

图片来源:

这篇帖子引起了很多研究人员的关注,整个帖子的浏览量已经超过了100万。

写论文用公式编辑器_写论文打公式_

其他人发布了他们使用 Grok 识别的 18 世纪文档:

_写论文用公式编辑器_写论文打公式

Grok 在识别其他图像方面也表现出色。例如,有网友上传了一张手表的照片,Grok 根据表壳形状和表带设计猜测了手表的品牌(研究过手表的读者可以检查一下自己的猜测是否正确)。

写论文打公式__写论文用公式编辑器

_写论文打公式_写论文用公式编辑器

你也可以请Grok对图片进行评论,可以从时尚、风格、表情等多个角度来描述它。例如,对于下面的图片,Grok回答说:“该图片描绘了一个动漫风格的角色,中等棕色长发,戴着眼镜,弹着贝斯吉他,这个角色展现出一种休闲、现代的样子,穿着格子衬衫外套和深色长裤,脚踩带有红色装饰的白色运动鞋,这样的造型表明这是一个年轻的人。依然是校园风,给人一种悠闲的艺术气息……”

写论文打公式__写论文用公式编辑器

来源

马斯克表示,Grok 实际上可以用来解释笑话(模因)。

写论文打公式__写论文用公式编辑器

今年3月,Grok-1正式亮相,并在数学、推理等能力方面取得了不错的成绩。之后,xAI迅速推出了新一代模型Grok 1.5,实现了长上下文理解和高级推理能力。 8月,Grok 2上线,在常识、数学竞赛题(MATH)、研究生水平科学知识(GPQA)等领域与其他前沿模型展开竞争。

现在,随着xAI的不断完善,大家终于可以体验到Grok的图像理解能力了。为了验证各路网友的说法,立即对机器心脏进行了测试。

公式OCR能力实测

首先,机器之心测试了 Grok 处理公式的能力。我们输入经典论文《Attention Is All You Need》中的公式截图,并要求将其转换为 LaTeX 代码。

输入公式的截图,对应论文中的公式(1)。

写论文用公式编辑器__写论文打公式

然后,我们将LaTeX表达式输入到在线LaTeX公式编辑器中进行转换,经过比较,发现结果完全正确。

_写论文用公式编辑器_写论文打公式

相关内容 查看全部