当我还在用ChatGPT聊天的时候,AIGC圈子里已经开始冒出新的东西了——
AI生成的史蒂夫·乔布斯仿佛从一幅画中醒来,对着镜头谈论着ChatGPT,而且他的声音与原来的声音非常相似。
根据作者的“历史”,视频中的文字选自他与ChatGPT的对话。 乔布斯的形象是由AI绘图工具Midjourney生成的。 AI拟声词工具ElevenLabs提供了语音再现视频 编辑软件,最后使用了AI视频工具D-ID。 将图像转换为视频。
借助类似的AI工具,网友用“魔法”生成的纸质人物可以移动,甚至可以轻松创建自己的数字克隆。
AIGC降低了创作门槛,越来越多的人尝试让AI参与内容创作,从文案录制到配音剪辑,AI几乎可以涵盖一切。 据国外商业咨询机构Acumen Research and Consulting预测,如果考虑到下一代互联网内容需求的快速增长,2030年AIGC市场规模将达到1100亿美元。
近年来,AI对话、AI绘画、AI语音技术实际上已经发展到了一定程度。 相对而言,AI模型在视频领域的发展和应用才刚刚起步。 像 D-ID 这样的技术可以仅使用静态图像创建虚拟人类视频,这确实令人惊叹。
目前国内外有哪些AI视频创作工具? AI将为视频内容制作和交互体验带来哪些改变? 本文对此进行盘点和分析。
AI拼接素材、套上模板,秒级制作视频
一般视频创作包括以下步骤:编写脚本/文案、拍摄视频或寻找第三方素材、编辑素材、配音、配乐、添加转场、特效、字幕、标题、封面图片等。
其中,AI现可协助完成视频素材图文智能匹配、AI自动剪辑、AI抠像、AI换脸、画质优化修复等多项任务。
“图文成电影”的功能在各平台推出的编辑应用中非常常见。 抖音的剪图、快手的快影、百度的百家号、哔哩哔哩的比剪都支持基于文案的图片一键拼接。 和视频素材,并同步生成字幕和配音。
输入的文案可以参考AI助手的回答。 例如,“养猫对人有什么影响?” ChatGPT回复称,养猫可以减轻压力、缓解焦虑、增强社交能力、改善心理健康、增加运动量。 我们可以在此基础上进行修改,然后导入剪辑。 。
视频编辑后不到一分钟就自动生成了,画面与文案内容基本相符。 如果您对素材不满意,例如想用视频替换静态图片,可以在在线素材库中搜索更合适的图片并替换。
值得注意的是,这些材料通常来自互联网或第三方服务,例如无版权库 Unsplash 和 Pexels。 AI剪辑应用所做的就是利用AI和机器学习对文案进行语义分析,分离镜头,智能匹配对应的图片。 。
因此,一键图文制作对创作者最大的帮助就是节省收集素材的时间,减少人工剪辑的劳动量,通过自动化和模板提高视频制作效率。
类似的自动视频编辑工具还有“Lumen5”,它专注于将长图像和文本转换为视频。 提供海量视频模板,操作门槛较低。 只需拖动文本即可将其转换为图片,就像制作 PPT 一样。 自2017年Lumen5推出以来,官网称已有超过100万企业客户使用其进行社交媒体营销和传播。
图片来源Lumen5
“vidyo”来自印度的一个人工智能初创团队。 它支持将长视频转换为短视频。 它可以通过AI语音识别技术自动从素材中编辑精彩片段。 它适用于直播视频切片和播客编辑。 不过,视频语言目前仅支持英语。
图片来源视频
虽然目前视频创作软件的AI功能主要是文本匹配视频素材,但未来可能会增加更多AIGC工具。
例如,国外的AI视频工具“Fliki”擅长将短图和文字转换为视频。 通过输入Twitter等博客的链接,您可以快速生成短视频。 它还提供基于图片素材的AI图像文本生成,并由DALL·E提供技术支持。
图片来源Fliki
“Copydone”来自国内AIGC初创公司。 支持小红书、淘宝等各平台的AI营销文案生成。 它还可以根据文案自动生成伴随图片或拼接视频。
图片来源Copydone
海外AI视频网站“QuickVid”集成了GPT-3、DALL·E 2等AI生成图文能力。 用户只需要提供一个视频主题,其余的都可以自动生成。 但其二次编辑的自由度和丰富性相对有限。
图片来源QuickVid
此外,视频创作中的具体需求也可以尝试用AI来实现。 例如,人工智能修复旧视频的热门案例有很多。 历史数据和早期影视片段可以通过“VideoEnhanceAI”等视频增强软件来提高图像质量和分辨率。
图片来源B站
让照片说话,跨模态AI做到了
目前的AI只能算是一个辅助视频创作的小助手。 如果你想更加原创,从头开始快速创建视频,还是有困难的,但更强大的跨模态视频生成模型(比如文本生成视频、图像生成视频)已经在路上了。
除了从现有素材库中拼接文本生成视频之外,它实际上还有一种更接近人类的工作方式,就像AI绘画模型学习文本和图像的抽象概念一样。
2022年5月,清华大学与致远研究院发布了“CogVideo”,这是国内第一个开源的文本生成视频模型。 在其Demo网站上,如果选择“在餐厅喝奶茶的少妇”,就可以看到AI生成的4秒分辨率为480×480的视频。
图片来源CogVideo
在设计模型方面,CogVideo包含94亿个参数,有效地将预训练的文本图像模型(CogView2)运用到文本视频模型中,并采用多帧率分层训练策略。
由 CogVideo 生成的 32 帧的 4 秒剪辑
从技术角度来看,视频是一帧一帧连续的图像,AI文本生成视频也可以视为文本生成图像的延伸。 总体原理是通过文本生成几张单帧图像,然后使用插值算法绘制几帧之间的图像,生成连贯的视频。
之前Disco Diffusion流行时,玩家们利用其动画模式生成2D或3D视频,这也延伸到了一些使用门槛更低、更容易创作的AI生成视频应用。
例如,在AI视频网站“凯贝尔”上,用户可以输入图像或文字描述,或者从预设中选择几个单词,快速生成4种类型的视频结果。
图片来源Kaiber
美国流行摇滚乐队linkin Park最近发布的新MV《Lost》由凯伯负责动画制作。
图片来源《迷失》
然而,跨模态视频生成的AI模型仍处于探索阶段。 Google、meta等主要厂商去年发布了相关研究论文。 他们只有演示案例视频 编辑软件,具体产品还没有推出。
据 meta 官网介绍,“Make-A-Video”加速了文本转视频模型的训练(不需要从头开始学习视觉和多模态表示),也不需要配对的文本视频数据,但它可以实现丰富的文本生成视频、图像生成视频(单个图像或两个图像之间的动画)以及改变原始视频的风格。
图片来源Make-A-Video
谷歌发布的“Imagen Video”和“Phenaki”也可以实现类似的效果,Phenaki可以根据一系列提示生成2分钟以上的长视频。
太空行走烟花
使用提示:
宇航员走过火星水坑的侧视图
宇航员在火星上跳舞
在火星上遛狗
宇航员和他的狗观看烟花
图片来源菲纳基
人工智能公司 Runway 参与构建了 Stable Diffusion 的第一个版本。 他们最近发布了一款新的视频生成器“Gen-1”,即将开放内部测试,声称可以将视频转换为任何风格。
根据Gen-1官网的演示,用户可以提供参考图像以指定的风格渲染原始视频,或者使用文本指令修改视频中的某些材质,甚至输出3D模型渲染和定制视频。
图片来源Gen-1
在AI生成3D短视频方面,国内深氧科技近期完成数千万元天使轮融资,并引入GPT3.5、Transformer、Diffusion Model等AI技术红利。 其发布的O3.xyz引擎V1.0版本支持一站式生成3D短视频内容,百万粉丝博主“特效卡卡西”等创作者已加入内测。
可见,跨模态人工智能生成视频的发展正在加速。 “用嘴做视频”未来在短视频、影视、设计、游戏、电商等多个行业都有应用潜力。
回到开头提到的“D-ID”,生成数字人/虚拟头像也是图像生成视频的一种。 这类工具目前在企业培训和营销方面有很多应用案例。
2020年推出的AI视频创作产品“Synthesia”显示,已有数千家企业在使用。 用户可以从现有演员库中选择或上传自己的视频来制作AI图像,然后输入脚本让AI配音和拼接素材。 视频已输出。
图片来源Synthesia
Synthesia通过训练神经网络实现逼真的合成效果。 与传统视频制作相比,Synthesia减少了实景录制等步骤,可以节省制作成本和周期时间。 还可以一键生成多语言视频,方便本地化服务。 因此,企业经常使用它来大规模生成员工培训、产品介绍演示、营销等视频。
D-ID 较早开始开发图像处理技术,并因与 MyHeritage 合作推出“Deep Nostalgia”计划而闻名。 借助人工智能工具,用户可以将已故亲人的静态照片变成栩栩如生的动态视频。
借助最近ChatGPT的热潮,各种AI工具组合制作的视频被更多人看到。 D-ID的经验门槛较低。 即使是不知道如何创建视频的新手也可以只上传图片,几分钟之内即可创建。 可以生成带有角色旁白的视频。
图片来源D-ID
D-ID自动为角色添加一系列面部动作,模拟一些轻微的头部动作,但有时表情看起来有点怪异,过于真实的照片可能会引起“恐怖谷”反应。
同时,用户不能上传政治、性、犯罪、名人或歧视性图像,D-ID会提示违规风险。 这意味着人工智能生成视频技术将像其他生成内容一样面临版权、道德和其他问题。
我们应该如何应对下一波 AIGC 浪潮?
去年,Stability AI 首席技术官 Tom Mason 判断,继文本生成图像之后,下一波浪潮必定是视频、音频和 3D。
当人工智能可以写文章、画画、制作视频并尝试接管大多数创造性任务时,人类下一步应该做什么?
我这里只谈一下我的想法。 首先,技术人员可以不断开发和改进AI模型。 在TikTok的官网上,已经发布了AIGC机器学习工程师的招聘要求。
图片来源 TikTok 职业
TikTok 表示,“AIGC 最近的突破让我们相信 AIGC 技术可以用于商业目的,尤其是创意制作。 想想人工智能生成/辅助的广告创意脚本,甚至人工智能生成的商业图像和视频,它们将永远改变创意制作行业。”
目前的AI视频模型无法像AI绘图一样快速生成高质量的作品。 例如,存在视频模糊、动作不自然、细节缺乏等问题。 但随着国内AIGC的技术发展,相关场景的应用生态可能还有很大的想象空间。 上面提到的一些AI科技公司现在已经开始提供付费服务,为个人和企业提高内容制作水平。 效率。
对于内容创作者来说,与其担心被AI取代,不如学会理解和使用AI工具,让AI取代重复琐碎的工作,把更多的时间花在自己的核心优势上,产出更高质量的内容。
确实,随着AI的加入,内容竞争将变得越来越激烈。 有创作者表示,D-ID出现后,“所有阅读式、新闻播报式的纯交通视频都会产生巨大的影响”。
从用户的角度来说,我觉得只要是高质量的内容,如果是AI批量生成的呢? 我们担心的其实是低质量内容的泛滥。
平台和用户都需要防止人工智能被滥用,例如产生虚假、仇恨、歧视或有害内容,甚至引发欺诈等犯罪活动。 谷歌提到,出于安全和道德考虑,在Imagen Video的内部试验中应用了输入文本提示过滤和输出视频内容过滤。 但仍存在重要的相关风险,两种视频生成模型暂时不会发布。 代码或演示。
总之,一方面,AI技术大大降低了从文字到视频的内容创作门槛。 另一方面,AIGC也在推动内容产业的创新。 目前至少可以实现一定程度的降本增效,但尚未在发展初期立下新功。 规则和秩序,最终如何改变行业取决于人的作用。
PS:本文提到的部分AI视频工具网址可以通过关注“新品列表”并在公众号对话框回复“AI视频”获取。