本文节选自阿里云与钛媒体联合策划的刊物《云栖战略参考》,旨在呈现各行业先锋们的技术探索与商业实践,与思考同样问题的“数字先锋们”们进行探讨与碰撞,希望这些内容能对你有所启发。
随着我们进入人工智能大模型和生成式技术快速发展的时代,基于人工智能的应用创新正在成为新的主题。
2023年,从通用大模型的炒作到行业大模型的集中落地,AI应用创新也在下半年爆发式涌现;2024年,AI应用的粒度正在进一步细化,针对性和效用更加实用,也越来越接近在垂直细分领域的价值实现。
对于大多数行业和其中的企业来说,转变技术范式、突破传统发展模式是更为现实的挑战,用人工智能赋能现有技术和业务才是最现实的命题,也是最高效、最快捷的落地路径。
但与传统行业诞生的创新不同,AI时代的新创业者都是土生土长的本土人,他们善于理解、运用和探索新技术,并天然地用AI思维构建应用模型。
人们对“AI原生”充满好奇,不仅想了解其新模式的内涵,更想知道下一个风口从何而来。本刊将定期总结、回顾国内外最新的AI原生应用,希望为读者提供创新发展趋势的信息与思考。
多模态生成式人工智能竞赛正在进行中
从2023年国内MIA Camera的爆发式火爆,到2024年初Sora的全球爆红,AGI所能呈现的内容深度正在快速减少。
《福布斯》杂志预测的人工智能关键创新之一是2024年多模态生成式人工智能,称此类系统可以处理文本、声音、旋律和视觉信号等各种输入信息,并将它们整合起来进行全面理解。随着多模态技术的不断发展,人工智能模型将面临更加复杂多样的交互场景,有望在智能家居、智慧城市、医疗诊断、自动驾驶等领域开拓新的应用空间。
视频生成
Sora 的发布被认为是实现 AGI 的重大里程碑,不仅仅是视频生成技术的突破,还达到了语言理解的新水平,使其能够准确理解提示词并生成表达生动情感的视频。它建立在过去对 DALL·E 和 GPT 模型的全面研究的基础上,提出了一种新的模型可能性,不仅可以理解提示中用户的要求,还可以理解物理世界的存在方式。
在人工智能巨头 OpenAI 进入市场之前,初创公司 Runway 和 Pika 被认为是该领域的领导者。
Pika Labs 成立于 2023 年 4 月,同年 11 月发布首款产品 Pika1.0,可生成和编辑 3D 动画、动漫、漫画和电影,普通用户也可以处理,堪称零门槛的“视频生成神器”。这个原本由 4 人组成的团队融资超过 5500 万美元,几乎所有知名的 AI 领域早期投资公司都参与了这轮融资。Pika1.0 发布不到四个月,同道中的 Sora 横空出世,为 AI 视频生成之路增添了不少变数和可能。
在与钛媒体创始人赵何娟的对话中,Pika创始人郭文静提到,生成视频发展的一个重要制约因素是算法的成熟度,这也是Pika最核心的关注点。“我觉得视频跟语言模型不一样,语言模型的通用方法大家都知道了,算法其实也挺成熟的。但是视频现在没有好的算法,不是规模的问题,也不是GPU不够,很多时候其实是算法没有好的想法。”郭文静说。
今年 3 月,Pika 向 Super Collaborator 和 Pro 用户开放了一项新功能供测试:Sound Effects,号称可以为视频无缝生成音效。生成音效的方式有两种:提供提示或让 Pika 根据视频内容自动生成音效。目前 Pika 尚未透露 Sound Effects 背后的原理。在 Sora 爆红之后,语音初创公司 Eleven Labs 也发布了类似的配音功能。
另一家独角兽Runway成立于2018年,是一家AI视频编辑软件提供商,主要为设计师、艺术家和开发者提供一系列工具和平台,其产品是帮助专业人士生成各种内容。Runway创业之初的产品形态是机器学习模型的应用商店。随后,公司不断基于AI算法开发新的模型框架。2021年,公司与慕尼黑大学和海德堡大学联合发表了《基于潜扩散模型的高分辨率图像合成》;2022年,公司打造了Stable Diffusion的原始版本,并将该技术融入到设计软件的功能中。2023年2月6日,Runway发布了Gen-1,可以通过文字提示编辑原始视频,或者参考其他图片中的样式,即基于原始视频生成新视频(Video to Video)。三个月内,又推出了Gen-2,支持从文字生成视频。 用户可以输入原始的文字提示,也可以根据系统提供的自动提示建议生成视频。Gen-2还支持高级设置优化,用户可以在网页上对生成的视频进行微调。
2024 年 3 月,以色列初创公司 Lightricks 也发布了一款 AI 驱动的影片生成和剪辑软件——LTX Studio,仅通过文字就能直接生成包含语音、音效、视频图像等复杂剧情。LTX Studio 融合了多种 AI 技术,覆盖了创作过程的方方面面。其中,该公司独创的 Vincent 视频模型——Long Animate Diff,可以创作帧率在 16 到 64 之间的视频。此外,团队还发布了另一款专门用于创作 32 帧视频的模型,与 Long Animate Diff 相比,它在视频质量上总体表现更佳。不过,对于背景音乐,该公司选择了第三方音乐资产供应商传统软件如何创新,因为他们认为目前的 AI 技术无法创作出符合要求的背景音乐质量。
在国内,爱视科技的PixVerseAI可以接受包括图片、文字、音频等多种数据源作为输入,并基于这些输入生成连贯、逼真的视频内容;平台可以在较短的时间内将用户提供的素材转换成视频,大大提高视频制作的效率;并且生成的视频不仅限于简单的翻译,还可以具有很高的艺术性和创造力,适用于制作营销视频、社交媒体内容、教育材料等应用场景;用户可以根据自己的需求对生成的视频进行一定程度的个性化调整。
音频生成
在 Suno 之前传统软件如何创新,已有多家公司推出 AI 音乐生成器,例如 Adobe 的 Project Music GenAI、YouTube 的 Dream Track 和 Voicify AI(现为 Jammable),但只有 Suno 被称为“音乐界的 ChatGPT”。它的与众不同之处在于,Suno 可以根据简单的提示创作从歌词到人声和编曲的所有内容。
目前,Suno V3在以下几个方面具有显著的优势:更好的音质;更加多样化的风格和流派;更强的cue适应性,包括更少的幻听和更优雅的结尾。
使用 Suno V3,用户现在可以使用免费帐户创作长达两分钟的完整歌曲,具体取决于他们选择的曲风。Suno 团队还表示,V4 已在开发中,并将推出一些令人兴奋的新功能。
值得注意的是,Suno 尚未公布任何训练细节。Suno 首席执行官兼联合创始人 Mikey Shulman 在接受采访时表示:“并不是所有的音频都是通过 Transformer 完成的,很多音频是通过扩散完成的,两种方法都有其优缺点。”
图像和文本生成
2023年7月,妙雅相机凭借AI图像生成技术迅速在市场上爆红。用户只需上传一定数量的照片,即可利用妙雅相机AI技术生成各种风格的高质量人像照片。FaceChain/FaceChain-FACT算法让妙雅相机生成的图片表情自然,细节丰富。此外,还具备AI图片编辑、数字化身创建、模板选择等功能。
ImageStory是AIGC出品的国内首款儿童绘本产品,在图像生成的基础上加入了情节故事,用户可以在小程序中创建数字化形象,为孩子定制特定主题的童话绘本和短视频故事。
童语故事生成式绘本的两大基本要素是文字和图片。与之对应,童语故事利用童语千文和童语万象构建了这两个基本能力。在文字方面,文字生成的核心是童语千文的深度学习模型。在“童语故事”小程序上生成AI故事只需三步:步骤1,选择故事人物。用户可以自定义喜欢的IP人物,也可以上传照片,打造自己的数字化身。步骤2,输入故事主题。如果用户没有灵感,可以选择“创作灵感”和“随机一个”,“童语故事”提供了20篇睡前故事和育儿故事。步骤3,选择朗读语气、画风和字数。朗读语气针对不同年龄段提供了多种风格和声音。画风包括平面插画、油画、人像等10种供用户选择。设定故事的字数和段落/图片数量。 多剧情故事还支持自动连载,并可合集生成,简单设置完成后,点击“立即制作”。
《童语故事》上线数月以来,受到消费者喜爱,也得到影视公司、出版社、专业少儿作家、电商平台等的认可。《童语故事》MAU(月活跃用户)已增至50万,微信小程序用户平均停留时长达到8-15分钟,这一用户时长在“AI故事”赛道中已跻身全球前三。
功纯AI是紫砂壶行业首个AIGC设计工具,让文胜图的创意更加专业化。这个小众行业,存在方言、圈层、文化等地域壁垒,且紫砂设计需要师傅认可,而大部分AI设计师傅在实施过程中都会主动微调(AI设计出来的紫砂壶大部分都需要人工调整)。它属于细分行业领域,市面上一般的大模型并不适合对接(设计出来的图大部分都不能用),需要基于小型、开源的模型进行不断的训练。
目前,“功春AI”已经成为传统工艺美术从业者的得力助手,它每制作30到50张图片,大概有1张能被资深工艺美术师识别。目前已有2000多位工艺美术从业者使用“功春AI”进行紫砂壶设计,在AIGC的辅助下,已有100多位工艺美术师制作的手工艺品投入生产。从商业模式上看,“功春AI”具备一定的可复制性,目前,“功春AI”已在其他陶瓷产区推广复制陶瓷艺术设计。
新型“助手”:AI Agent快速进化
人工智能领域著名学者、斯坦福大学教授吴恩达指出,AI代理工作流将在今年推动人工智能的巨大进步,甚至可能超越下一代基础模型。他呼吁所有从事人工智能工作的人关注AI代理工作流。
初创公司 Cognition AI 近日宣布推出全球首位人工智能软件工程师 Devin。在宣传中,Devin 可以将用户的提示词直接转换成网站或视频游戏。它可以自主下载代码、构建环境、执行代码、修复错误并完成任务,而且只需要一个命令就可以完成这些端到端的任务。
在 SWE-bench 基准测试中,Devin 能够解决 13.86% 的问题,而 GPT-4 只能处理 1.74% 的问题。更重要的是,Devin 不需要人工干预,而 GPT-4 需要人工提示来指定处理文件。
Devin 一经发布就引爆了整个科技圈,但大多数人可能之前并没有听说过这家公司,毕竟他们在发布前两个月才真正公开亮相。这家只有 10 名员工的公司成功从 Peter Thiel 的风投公司 Founders Fund 和其他投资者(包括前 Twitter 高管 Elad Gil)手中融资 2100 万美元。这些投资者被 Cognition AI 的创始团队和其主要成就 Devin 所吸引。
Cognition AI 在设计 Devin 时的一个亮点是,该公司在计算机推理能力方面取得了突破。从 AI 角度来看,推理意味着系统不仅能够预测句子中的下一个单词或一行代码中的下一个片段,还能以类似人类的方式思考并找到问题的合理解决方案。AI Land 认为,推理是推动行业发展的下一波浪潮,许多初创公司也在努力展示自己在这方面的技术能力。
与其他现有的AI助手不同,Devin不仅可以提供编码建议并自动完成一些任务,甚至可以独立承担并完成整个软件开发过程。它的使用也相当简单。只需提交一个任务——比如创建一个展示悉尼所有意大利餐厅地图的网站——软件就会进行搜索以找到餐厅,获取相应的地址和联系方式,然后构建并发布展示这些信息的网站。在运行过程中,Devin还会列出它正在执行的所有任务,甚至在编写代码的同时继续测试,自行查找和修复错误。
总体而言,Devin 可以规划和执行需要做出数千个决策的复杂工程任务。Devin 可以回忆起每个步骤的相关背景,随着时间的推移不断学习并改正错误。
研发团队还为 Devin 配备了常用的开发者工具,包括沙盒计算环境中的 shell、代码编辑器和浏览器,以及人类开发者完成工作所需的所有其他工具。最后,研发团队还赋予了 Devin 与用户主动协作的能力。Devin 可以实时汇报协作进度,接受反馈,并根据需要与用户一起做出设计选择。
Cognition AI 如何在如此短的时间内取得如此重大的突破,这仍是一个谜,其首席执行官 Scott Wu 拒绝透露太多有关该技术的基础细节,仅表示他的团队找到了一种独特的方法,将 OpenAI GPT-4 等大型语言模型 (LLM) 与强化学习技术相结合。
Cognition AI 并不是唯一一家致力于开发 AI 编码工具的公司。
今年 2 月,初创公司 Magic AI 获得由谷歌母公司 Alphabet 旗下子公司 CapitalG 领投的 2800 万美元,以及由前 GitHub CEO Nat Friedman 及其投资合伙人 Daniel Gross 投资的 1.17 亿美元。
Magic AI 私下宣称可以实现类似 OpenAI 去年开发的“Q 算法”的主动推理能力,并称其开发的新型大型语言模型更接近人类的思维方式,可以实现全自动编程,打破现有半自动化的代码编写方式,类似于真正的程序员。不过,Magic AI 选择从零开始设计自己的模型和其他底层技术,希望保证业务独立性。这家初创公司尚未向公众展示其 AI 系统。
在国内,除了各大公司推出Agent产品外,该领域也涌现出大量初创企业,并在各个行业快速融合落地。
比如,势在智能2023年8月发布自研垂直“TARS大语言模型”,在此基础上结合RPA与AI Agent,打造即插即用的产品级TARS-RPA-Agent;蓝玛科技2023年12月20日正式发布AskXBOT平台,这是其自研的基于LLM的Agent智能体与工作流的设计、开发、使用、管理、知识积累的一站式平台;智谱AI今年1月发布第四代多模态基础模型GLM-4系列,并推出全新GLM-4 All Tools(所有工具)及GLM个性化智能体定制能力……
结论
通过上述热门的AI应用创新项目,我们可以看到新技术的突破方向,并发现基于生成式AI实现新商业前景的可能性。
但一个现实的问题是:这些应用和业务是昙花一现,还是会持续蓬勃发展?
红杉资本在《生成式AI的第二幕》中指出,目前生成式AI应用最大的问题是需要证明自身的价值,因为基于基础大模型的应用的用户留存率显然不够。目前顶级App消费公司首月用户留存率可达60%~65%,最高甚至能达到85%。而生成式AI应用的用户留存率中位数仅为14%。这意味着用户在生成式AI产品中还没有发现足够的价值以至于每天都会使用。因此开发者如果想打造持久的业务,就需要解决用户留存问题。因此,生成式AI真正的商业价值在于各类应用场景的发掘。
此外,不仅仅是应用本身的价值,当前很多AI创业公司的竞争力严重依赖核心创始团队,这也给公司运营和业务连续性带来了极大的不稳定性,很多公司还未形成可持续的商业模式,就即将化为泡沫。
2024年3月23日,Stability AI CEO宣布辞职。该公司开发了Stable Diffusion开源模型,在业界颇具影响力。在CEO辞职前,媒体报道称参与Stable Diffusion模型开发的几位关键开发人员已经离职。据报道,Stability AI资金耗尽,无法支付训练大型模型所需的GPU集群。人们普遍认为该公司将面临破产。
早在 2022 年就推出 AI 助手 ACT-1 的 Adept 团队的两位联合创始人离职并创办了自己的初创公司 Essential AI。
另一家AI独角兽Inflection AI也岌岌可危。2023年6月底,该公司宣布获得13亿美元融资,估值达到40亿美元,成为继OpenAI和Anthropic之后全球第三大生成式AI独角兽。但今年三位创始人中有两位加入微软成立新公司。这些初创公司的发展也与OpenAI此前“宫斗”、差点开新公司的经历十分相似。
AI时代的创新之轮才刚刚开始转动,我们将持续关注技术成熟度曲线下的AI创新周期。
本文根据公开资料查阅,部分内容选自以下文章:
1.Sora发布后,Pika创始人独家回应钛媒体:很激动,我们会直接上线
2.中国90后团队真的来摧毁程序员饭碗了!全球首位AI超级工程师问世:拥有全栈技能,一个命令就能完成整个开发流程
3.2024年中国AI应用“盘点”|工业AI 4.红杉资本:生成式AI的第二幕
5. 歌词和音乐创作仅需数秒,“AI作曲家”Suno 让音乐行业火了一把。以下是亲身体验和技巧
6、中泰证券《AI生成视频专题报告:Runway基础模型快速迭代,成为视频生成领域的先行者》
7.AI版《西游记》震撼百万网友!AI电影颠覆好莱坞,一步步打造爆款视频
本文摘自《云栖战略参考》第16期
扫描二维码限时领取纸质版
↓↓