发布信息

HiDream-I1国内首发:Full/Dev/Fast三版本详解,30秒出图稳定高效

作者:软荐小编      2025-04-17 10:01:46     131

这东西真的是我们一直以来内心默认国内早就应该有了的,然而直到现在才终于出现。

我非常好奇,于是联系上了背后的团队,向他们询问了很多相关的内容,最终有了这篇文章。

真实可用,不是PPT

HiDream-I1 有三个版本,分别是 Full 版本、Dev 版本和 Fast 版本,这三个版本分别对应着不同的推理场景。

画面细节

色彩与光效

崩坏控制

物理法则

我去跑了几个任务:

可爱的举重猫猫

富有张力的镜头特写

带上文字也可以

生成质量稳定,其理解力准确。在 Full 版下,出图速度约为 30 秒/张;在 Dev 版下,出图速度为 10 秒/张;在 Fast 版下,出图速度是 5 秒/张。可以直接将其挂进内容生产链路中使用。

这些速度并非是通过粗暴剪枝而得来的。Dev 模型和 Fast 模型是在原版的基础之上,借助 GAN 辅助的扩散蒸馏方式进行了结构级的压缩。这种压缩方式保留了大模型的细节能力,并且使得推理成本得到了显著降低。Fast 版本进一步对采样步数进行了压缩,从而拥有了更快的速度。

直接能用

HiDream-I1 对整套部署支撑进行了优化,因此,无论是进行项目原型的制作,还是将其打包进服务,这套模型的部署链路都十分顺畅。

官方在 hf 上的介绍

可以先在 Hugging Face 上进行玩耍,并且这里也有与之对应的 Space。

他们也有更加产品化的网站(面向海外的)

产品是面向海外的一些数据

在几项主流评测里,会发现它的表现也都在第一梯队:

DPG-Bench:评估模型对复杂提示的理解与还原能力

Geneval:评估模型对提示中对象的理解与执行能力

HPS v2.1 :评估图像的主观美感和语义一致性

这些 benchmark 来自公开信息,可以复现试试。

它们的结果仅仅说明一件事,那就是 HiDream-I1 在理解文本这方面是稳的,在还原细节这方面是稳的,在维持画面质量这方面也是稳的。

One More Thing

I1 之后,这几天他们还会开源 E1。

I 代表图像,E 代表编辑器:从生成图像开始,一直到对图像进行编辑

用对话的方式改图,像 GPT-4o 那种,敬请期待。

来自合肥,低调做事

第一次注意到 HiDream 这个团队,还是去年初雪;

再次看到,已是春暖花开。

当时只道是寻常,没第一时间去深聊。

在过去的两周当中,HiDream-I1 在开源生态领域发展迅猛,不断攀升排名,这着实让人感到惊讶。它的参数不大,但速度稳定,所生成图像的质量有保障,并且能够跻身于顶级开源模型的前列。在如今的开源图像模型之中,这样的情况已经是比较少见的了。

我出于好奇,联系了他们,并且和他们的团队聊了半个下午,通过交流拼出了这个项目的全貌。

HiDream.ai 于 2023 年 3 月成立,地点在合肥。合肥就是那个有着中科大作为依托,并且孵化了京东方、科大讯飞的地方。

创始人梅涛有中科大背景。他在中科大完成了本科、硕士和博士的学业,之后在微软亚洲研究院担任了 12 年研究员,接着在京东探索研究院担任副院长,同时他还是 IEEE Fellow 以及加拿大工程院外籍院士。

这个项目的天使轮由群友提供,群友来自一个叫“中喝大”的中科大校友群。15 位校友在此自发组建了 LLP,并投下“种子一号基金”。之后,在敦鸿资本领投的 Pre-A 轮融资之后,又获得了数亿元 A 轮融资,两轮融资的总规模达到数亿元人民币。在行业内来看,融资金额不算多。

梅涛称,他创业并非是为了与他人竞争,也不是为了追逐热点,而是想要证明,中国的科研人才能够在工业级产品线里做出属于自己的成果。即便会晚几年,但路径是可以跑通的,结构也是可以复制的。

目前,HiDream.ai 团队的人数大概在 50 人左右。这个团队拥有目前行业内最为丰富的多模态版权语料库。并且,他们把训练 ROI 做到了业内平均水平的 1/5。在模型路线方面,他们走的是自研架构以及全流程闭环的路线。同时,他们也是在中国为数不多的真正“从基础模型一路做到应用层闭环”的图像/视频方向的创业公司之一。

办公室实拍...没啥构图,主打真诚

他们上周在海外爆火了一波。照理来说,你本应该看到很多很多的 PR 稿件,这些稿件是用来讲述“国产替代”或者“国产超越”的故事的。

实际上,什么都没有。看到的只是将权重挂在 Hugging Face 上,贴好推理脚本、样例代码以及 demo 页面,接着静静地等待社区进行试用。

我问他们,“为什么不讲点东西?”

团队的回答是:“说得响没用,能用才有价值。”

语气平实,节奏克制。

能看出,他们不是不准备,而是不着急。

这两天,他们将会正式把 HiDream-E1 开源,这里的 E 代表 Editor。

Git 上已经有了 Readme,开源出来不远了

接下来,HiDream 预计在 5 月发布视频生成的相关内容。

没喊口号,按计划在推进。不在造势,而在做事。

结尾

AI 的大火很有意思,它从北京开始燃烧,蔓延到了上海,接着又点亮了“杭州六小龙”,同时也让我们看到了 Manus 在武汉的崛起。

现在,合肥也交出了自己的答卷:HiDream。

一个创业团队,从图像模型开始切入。在那个没人关注的节点,他们把一件“早就该有人去做的事情”给做出来了。

春风拂面,桃花满枝。

我们越发看见、也越发确信:

中国的创业公司,不讲故事,也能把答案写在时代的卷首。

相关内容 查看全部