发布信息

OpenAI 年度 DevDay 大会:Realtime API 等新功能亮相,开启低延迟多模态体验新时代

作者:软荐小编      2024-10-16 22:23:36     68

OpenAI 昨天举行了年度 DevDay 会议,宣布了其 Realtime API,以及即时缓存、视觉微调和模型蒸馏等功能。

Realtime API 旨在构建低延迟、多模式体验,现已作为公共测试版提供。

该公司分享了几个已经在使用 Realtime API 的公司示例,例如健身教练应用程序 Healthify,该应用程序使用它来与其 AI 教练进行更自然的对话,或者 Speak,这是一款使用 Realtime API 的语言学习应用程序API 使客户能够用他们正在学习的语言练习对话。

据 OpenAI 称,该 API 支持 ChatGPT 高级语音模式中的六种预设语音。

聊天完成 API 中还添加了音频输入和输出,以在不需要实时 API 低延迟优势的用例中支持语音。这使得开发人员能够将文本或音频传递到 GPT-4o 中,并让它以文本、音频或两者进行响应。

据该公司称,实时 API 以及在聊天完成 API 中添加音频将使开发人员能够使用单个 API 调用构建自然的对话体验,而不需要组合多个模型来构建这些体验。

未来,OpenAI 计划添加视觉和视频等新模式、提高速率限制、官方 SDK 支持、提示缓存和扩展模型支持等功能。

说到提示缓存,这是 DevDay 期间宣布的另一项功能。提示缓存允许开发人员重复使用最近的输入令牌以节省资金并更快地处理提示。缓存输入的成本比未缓存令牌低 50%,除了微调版本之外,现在最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 中默认提供此功能。

接下来,它宣布在 GPT-4o 中对视觉进行微调,允许用户自定义模型以获得更强的图像理解。然后,这可以用于高级视觉搜索、改进的自动驾驶车辆对象检测或更准确的医学图像分析等场景。

到本月底,该公司将每天提供 100 万个免费培训代币,用于使用图像对 GPT-4o 进行微调。

最后,OpenAI 宣布了 Model Distillation,它允许开发人员使用功能更强大的模型的输出来微调更小、更具成本效益的模型。例如,它可以使用 GTP-4o 或 o1-preview 输出来改进 GPT-4o mini。

其模型蒸馏套件包括捕获和存储模型生成的输入输出对的能力、创建和运行评估的能力以及与 OpenAI 微调功能的集成。

该功能现在可以在 OpenAI 的任何模型上使用,并且该公司将在本月底之前在 GPT-4o mini 上每天提供 200 万个免费训练代币,在 GPT-4o 上每天提供 100 万个免费训练代币,以鼓励人们去尝试一下。

OpenAI 筹集 66 亿美元资金

DevDay 之后,该公司今天宣布已获得 66 亿美元融资,估值达 1,570 亿美元。该公司在新闻稿中没有具体说明投资者,但 CNBC 报道称,该轮融资由 Thrive Capital 领投,微软、NVIDIA、软银等公司参与。

“新的资金将使我们能够加倍加强我们在前沿人工智能研究中的领导地位,提高计算能力,并继续构建帮助人们解决难题的工具。我们的目标是使先进的智能成为一种广泛可用的资源。我们感谢我们的感谢投资者对我们的信任,我们期待与我们的合作伙伴、开发人员和更广泛的社区合作,塑造一个人工智能驱动的生态系统和未来,通过与包括美国和盟国政府在内的主要合作伙伴合作,我们受益匪浅。可以释放这项技术的全部潜力,”OpenAI 在一份声明中写道。

相关内容 查看全部