2024年的最后一个月,全球AI圈似乎已经约好开启年终热潮模式,批量发布新品。
据《相对论四木》统计,年底至少有15家全球顶尖AI公司参与了这场新的“战斗”,新增了20+个新功能。
在海外,最受关注的无疑是OpenAI为期12天的促销活动的启动,期货Sora终于兑现了。
大约在同一时间,谷歌、xAI、World Labs、meta、亚马逊、Pika、Runway等海外知名公司也推出了新的AI功能。
12月国内,大昌、刘小虎、AI鲶鱼DeepSeek均上阵。
“卷王”字节首当其冲。在豆宝、梦幻中新增了图像理解能力。
《六小虎》中的MiniMax、踏星、智能谱AI,有的是模型,有的是Agent应用。 Deepseek和腾讯直接推出新模型并开源。
总体而言,各大公司近期的更新呈现出以下特点:
然而,很多产品却因为缺乏曝光度等因素而“悄然”发布。
还有一些备受期待的产品,比如Sora,却收到了负面评价。
在这个激动人心的12月,到目前为止你还记得谁?
海外:OpenAI挤掉牙膏,却没人关心?
今年12月,加入新AI战局的海外企业至少包括OpenAI、谷歌、xAI、meta、亚马逊、Pika……
“营销专家”OpenAI呼声最高。
12月6日,“双十二”活动拉开帷幕,并将连续召开十二场新闻发布会。
目前赛程已进入第七天,结果如下:
不仅是OpenAI,谷歌、Pika、Midjourney、xAI本周也有新动作。
12月14日,Pika推出新模型2.0,引入场景成分功能。
该功能允许用户根据自己的需求自由选择人物、物品、服装和场景元素,构建特色镜头。同时,Pika 2.0支持多人在同一画布上协作。
12月12日凌晨,谷歌发布了Gemini2.0,声称“Gemini2.0是我们迄今为止最新、最强大的AI模型”。
该型号可支持图像、视频、音频等多模态输入输出,速度比1.5Pro快一倍。它还可以直接调用Google搜索和代码执行等工具。
基于Gemini2.0架构,谷歌还推出或升级了三款新的AI Agent原型:通用大型模型助手Project Astra、浏览器助手Project Mariner和编程助手Jules。
不过Gemini2.0的体积比Sora小很多。
官方公布后几乎不到半小时,双子座2.0条目在推特上的热度已经跌至第8名。在不断下降的过程中,网友们还在分享Sora的鬼魂视频,以及能力对比混源、海洛、克林、索拉。
这也可能是因为Gemini 2.0更新虽然获得了很多正面评价,但在呈现上却显得非常“常规”:响应速度更快、支持在线搜索、新推出的支持多轮的“深度研究”功能复杂推理、增强代码生成、补充第三方工具调用能力。
同日,中途正式宣布拼凑功能更新。
这是一项实验性功能,允许多人共同创建一个在线世界。所有参与者将在白板画布上共同创作(有点像 Canva 和 Figma 的共同编辑)。
而且,Canvas还为每个用户的世界创建了一个门户,可以连接到其他人的世界。
中途之前的更新基本上都集中在生成图像的能力上,比如支持AI修图、支持新风格模型等。
但这次Patchwork却让MJ在玩法上有了很大的不同,从一个只能一个人使用的图片生成工具,变成了一个可以让大家一起玩的AI艺术创作产品。
持有巨型卡片的 xAI 也在滚动的视觉方向上。
12月10日,xAI发布了首款完全自主研发的图像生成模型Aurora。
Aurora 已直接集成到 Grok 中,Grok 是一种在混合文本和图像数据集上训练的自回归混合专家模型 (MoE)。除了图像生成之外,Grok 还具有编辑功能。用户可以直接修改生成的图像。该功能也将在 X 上推出。
meta 还于 12 月 7 日发布了 Llama 3.3,提高了性能。据说目前的70B版本可以达到之前405B的性能。
其在指令合规性(IFeval)、数学(MATH)和推理(GPQA Diamond)等领域的水平超过了7月份发布的Llama 3.1 405B。在语言(MMLU)、代码(Humaneval)、长文本和多语言能力方面,其结果也比较接近Llama 3.1 405B。
官方将 Llama 3.3 的进步归功于新的对齐流程和在线强化学习技术的进步。
Runway 在前一天(12 月 6 日)更新了第一幕功能。这项新功能允许用户直接将拍摄的表演动作或声音“应用”到现有视频角色(包括 AI 角色)上。
12月份第一个发起启动“竞赛”的人居然是“AI教母”李飞飞。
12月3日,李飞飞创办的World Labs首次正式公布其“空间智能”模型,可以用图片生成3D世界。
这些3D场景可以在浏览器中实时渲染,还可以实现可控的相机效果和可调的模拟景深。
同样在同一天,亚马逊发布了多式联运车型Nova系列。
亚马逊这次直接发布了一个大全家桶,包括:超快文本生成模型Amazon Nova Micro、能够处理文本、图像和视频并生成的多模态模型Amazon Nova Lite、Amazon Nova Pro和Amazon Nova Premier。文本。用于生成高质量图像的 Amazon Nova Canvas 和用于生成高质量视频的 Amazon Nova Reel。
不管这波年末海外新品有多轰动,似乎很多人都只关注Sora。
好吧,OpenAI 的营销再次获胜。
国内:六小虎与大工厂的视觉混战
与海外相比,国内厂商的“滚滚”趋势出现得更早。每个企业的发展方向,从模型卷到产品,都离不开愿景和生产力这两个话题。
《四木相对论》也总结了近半个月的新品:
大公司中,字节跳动和腾讯是12月份排名靠前的公司(统一钱文11月28日发布了QWQ模型)。
今年12月,前者在豆宝和极萌上更新了功能,后者突然开放了视频生成模式。
我们先看一下字节。
12月10日,豆宝官方表示,电脑版视频生成功能已开始内测。
获得内测资格的账号每天可以免费生成10个视频。通过内测申请后,选择“视频生成”功能,上传图片,输入提示词,添加摄像机运动和故事板信息,生成短视频。
早在12月5日,豆宝就新增了AI生成文字图片的功能。也就是说,用户现在可以添加文字要求提示文字生成带有指定文字的图片,可以用来制作海报和表情包。
(Simu用豆包制作的图片,强调“Simu的厨房”)
类似的功能也体现在梦中。
12月2日晚,极盟全新2.1车型上市。这个模型的突破体现在中文文本的稳定生成,当然也支持英文。
腾讯混元本月最大的动作就是正式上线视频生成能力。
12月3日,腾讯不仅推出了这个130亿参数的模型,而且将其开源。
目前,该模式已在腾讯元宝APP上线,用户可在AI应用的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,同时开放API供内测应用。
《思木相对论》观察到,近两个月来,腾讯混元系列机型动作较为频繁。
11月初,宣布最新教育部模型“混元大”和混元3D生成大模型“混元3D-1.0”正式开源。 12月,新增Vincent视频功能,正式加入批量视频机型行列。
除了各大厂商之外,大机型六小虎中的三只——智普AI、MiniMax和步星也在本月推出新机型。
我们先来看看智慧谱。
12月的Wisdom Spectrum重点关注模型和应用。首先是多模态型号——GLM-4V-Flash,在智普开放平台上推出,可免费调用。
GLM-4V-Flash模型具有图像描述生成、图像分类、视觉推理、视觉问答(VQA)、图像情感分析等图像处理功能。
多模式/可视化 API 非常昂贵。号称GPT-4o mini模型视觉能力标杆的GLM-4V-FlashAPI是免费的,可以算是真正的产品。
产品方面,Auto-GLM是智普近期的重点。
首先,智浦于11月29日发布了Auto-GLM的手机版和电脑版。半个月后,12月12日,Auto-GLM又更新了一个版本。
用户开启AutoGLM后,可以通过语音发送指令,让智能座席接管手机,在可操作的App上自动执行购买外卖、预订高铁票、导航目的地等任务。
经过“四木相对论”测试和更新,Auto-GLM支持的应用更加稳定。同时还增加了定制高频短密码、快速触发常用任务等功能。
智浦CEO张鹏在发布会上的AI红包操作一度刷屏,“四木相对论”也成功再现。
Minimax 本月还推出了多模式。
12月3日,海螺AI图胜视频模型I2V-01-Live上线。
视频生成想必是今年 MiniMax 的一大亮点。此前,MiniMax的亮点几乎全部集中在Talkie上,但海螺视频的推出打破了这一印象。
此次I2V-01-Live更新了2D插画的动态呈现方式,增强了动画的稳定性和细腻表现力。一张图片+一句话,就能把二维插画变成动态视频。
另一位一向略显低调的小虎步明星,也对模型层进行了更新。
周五(12月13日),Step Star发布了大型端到端语音模型——Step-1o。
据官方介绍,Step-1o支持语音、文字等混合形式的输入输出,可以理解和模仿音色、节奏、方言等声音特征以及个性化的口语表达习惯。还可以通过自学和模仿不断提高答题质量,并为解决问题提供专业建议。
从场景角度看,支持包括新闻播报、聊天陪伴、有声读物、在线教育、智能硬件、汽车等语音交互技术需求。
不久的将来,Step-1o还将接入阅文App,实现实时语音通话服务。
国内AI圈另一家不可忽视的玩家DeepSeek在短短半个月内就推出了两项新技术。
最新开源的 DeepSeek-VL2(12 月 13 日发布)是一个混合专家(MoE)语言模型。
DeepSeek-VL2 的高质量训练数据是第一代 DeepSeek-VL 的两倍,并引入了 meme 理解、视觉定位和视觉故事生成等新功能。视觉部分采用裁剪策略支持动态分辨率图像,语言部分采用低成本高性能的MoE架构。
这次,大车型价格中的“体量之王”,在视觉车型上更是“体量”。
根据 DeepSeek 提供的评估比较,DeepSeek-VL2 在相似或更少的激活参数下实现了最先进的性能。
此外,DeepSeek V2.5系列的最终微调模型——DeepSeek-V2.5-1210也于2月10日更新。
据官网介绍,本次更新通过Post-Training全面提升了模型各方面的表现,包括数学、编码、写作、角色扮演等,同时新版本模型对文件上传进行了优化功能并新增在线搜索功能,可服务各种工作生活场景。
与一些只强调功能或模型偏好的AI公司不同,这次DeepSeekV2.5-1210模型更新后,其聊天窗口显示了两个标签——“深度思考”和“互联网搜索”。
这似乎在告诉外界:我想要产品的所有日常场景和模型推理能力。确实是卷中之王。
12月刚刚过半,AI圈子的新创新还将持续。
毕竟,OpenAI 年终发布才刚刚过半。字节还将在下周召开发布会,重点强调豆宝和极萌的更新。
12 月的最后一个月,AI 不眠不休。