在当前的图像生成技术中,文本渲染的能力逐渐成为衡量其先进程度的重要标准。无论是学术界的最新研究,还是市场上的先进产品,都在竞相展示自己处理复杂文本的能力。这不仅标志着技术的进步,也成为创新的分水岭。
事实上,文字图像生成技术在海报、书籍封面、广告和LOGO设计等许多领域都表现出了显着的实用性,成为不可或缺的工具。
此外,随着社交媒体和数字营销的兴起,能够快速生成具有视觉吸引力的图像变得更加重要。这些图像往往需要与创意文字相结合,才能更好地与目标受众进行沟通,从而在短时间内吸引用户注意力,提高品牌认知度。
图 1.现有文森图方法的生成结果。提示:一只猫拿着一张纸,上面写着文本渲染很重要
在图1中,我们可以直观地看到Vincent图模型技术的快速进步。然而,尽管技术日益成熟,一些方法在处理复杂文本时仍然表现出一些局限性。
例如,生成的图像有时会遗漏提示中的关键字,这可能会影响最终图像的可用性。 Ideogram 和 Recraft V3 等产品在文本渲染方面表现出色。
它们能够更准确地捕获和渲染文本中的细节和上下文,从而生成与输入文本紧密匹配的图像。
值得一提的是,Recraft V3作为文本图形领域的一匹黑马,以1172的ELO分数夺得了人工分析文本到图像模型排行榜第一名(图2)。 Recraft 的新模型的质量超过了 Midjourney、OpenAI 和其他所有主要图像生成公司的模型。
图2 Vincent排行榜中,Recraft V3排名第一
近日,Recraft团队在官网分享了其文本渲染技术的一些实现细节。在接下来的章节中,我将详细分析这些技术细节,并探讨 Recraft 是如何实现其出色的文本转图像渲染效果的。
图 3 早期的 Recraft 20B 模型的文本渲染能力较差。提示:一只猫,上面写着“Recraft 生成的文本非常好!”在它的爪子里
Recraft 团队首先尝试使用早期模型 Recraft 20B 根据提示“一只带有‘Recraft 生成文本惊人的好!’标志的猫”来生成图像。在它的爪子里”,发现文本渲染得不好(图 3)。基于此,Recraft团队总结分析了几个关键点:
1. 训练数据的局限性:文本到图像生成模型主要针对包含图像及其相应简要描述的数据集进行优化。这些描述通常只涵盖图像的一般内容,而没有提供具体的细节,尤其是图像中的文本内容。因此,在生成包含特定文本的图像时,由于缺乏详细条件或示例,模型表现不佳。
2. 易于识别文本错误:人脑非常擅长处理和识别文本,因此图像生成中的任何文本错误都很容易被我们发现。
为了解决图像生成模型处理图像中文本的问题,Recraft团队采用了一种使用文本布局图作为更详细的输入条件的方法。该策略受到 TextDiffuser-2 论文(图 4)的启发,该论文提供了有效处理文本表示的技术。
图4 Recraft团队利用TextDiffuser-2技术构建两阶段文本渲染框架
论文链接:
在收集数据的过程中,Recraft团队借鉴了TextDiffuser-2的方法,采用了两阶段生成框架:首先生成文本布局,然后根据这些布局生成图像。
尽管可以使用 OCR 技术从现有的字图图像中检测文本布局,但 Recraft 团队发现现有的开源 OCR 工具很难产生完美的 OCR 结果,这主要是由于数据分布的差异。
因此,Recraft团队参考《Bridging the Gap Between End-to-End and Two-Step Text Spotting》论文(图5)开发了一种新的文本检测和识别方法。
图5 Recraft团队使用本文提取文本布局
论文链接:
最终,Recraft团队基于大语言模型训练了两个“双向”模型:一个模型根据OCR结果生成字幕,另一个模型可以根据用户的提示生成模型想象的OCR字幕,从而完成文本布局的生成。这种方法有效地提高了生成图像的质量和文本的准确性。
图6 Recraft团队使用OCR模型提取图像的文本布局,使用大语言模型获取标题,并训练另一个大语言模型从提示中获取布局以生成图像。
在构建文本信息的过程中,Recraft团队采用了TextDiffuser-2的表示方法。每一行文本首先记录文本的内容,然后用坐标来表示文本的具体区域。
与 TextDiffuser-2 不同,Recraft 团队使用三个坐标点来表示文本(图 7),从而使模型支持渲染倾斜文本。
此外,Recraft团队最终选择了类似ControlNet的架构来渲染白底黑字的图像,作为模型生成的辅助条件。这种方法增加了文本渲染的可控性,允许用户自定义他们想要渲染的文本区域。这与仅使用提示作为条件的通量和表意文字方法形成对比,提供了更高程度的灵活性和控制。
图7 Recraft团队使用TextDiffuser-2表示方法获取文本布局,并将其渲染成图片作为图像生成的条件。
自从Recraft团队开放了测试界面后,我对模型进行了一些测试,结果令人惊叹。
图8提示:一只猫拿着一张纸,上面写着abcdefghijklmnopqrstuvwxyz
图9提示:猴子音乐节海报平面设计
图10提示:左边女孩拿着纸说你好,右边男孩拿着纸说世界
图11提示:在一个雨夜,天空中的闪电形成了“你好”的形状。
然而,Recraft 仍然存在一些问题。例如,模型虽然可以支持中文提示,但对于中文渲染并不是特别擅长:
图12提示:雨夜,天空中的闪电形成“天”字
此外,Recraft 很难渲染未明确指定的文本:
图13提示:一名男子站在一张巨大的报纸前。可以发现小字的笔画是扭曲的。
图14提示:键盘。键盘上的文字是乱码。
图15提示:标尺。秤失控了。
简而言之,文本渲染在文本生成图像领域起着至关重要的作用。它不仅关系到图像的视觉呈现,还影响文本信息的准确传达和语义理解。尽管近年来技术取得了显着进步,但文本渲染仍然面临许多挑战,需要进一步的研究和改进。
参考:
陈杰,黄宇,吕涛,等。 Textdiffuser:扩散模型作为文本画家。 NeurIPS 2023。
陈杰,黄宇,吕涛,等。 Textdiffuser-2:释放语言模型用于文本渲染的力量。 ECCV 2024。Huang M,Li H,Liu Y,et al。
弥合端到端和两步文本识别之间的差距。 CVPR 2024。