软件行业资讯

阿里通义实验室推出自适应规划多模态检索智能体OmniSearch

 作者：软荐小编  2024-12-04 15:01:03  85

由 OmniSearch 团队贡献

量子比特 |公众号QbitAI

多模态检索增强生成（mRAG）也像o1思考和推理！

阿里巴巴统一实验室新研究推出自适应规划多模态检索代理。

名为OmniSearch，它可以模拟人类思考解决问题的方式，逐步拆解复杂问题进行智能检索规划。

直接看效果：

阿里系搜索引擎_阿里的搜索软件叫什么_

只需上传图片并提出任何问题，OmniSearch 就会经历一个“思考过程”。它不仅会分解复杂的问题进行检索，还会根据当前的搜索结果和问题上下文动态调整下一步的搜索策略。

阿里的搜索软件叫什么_阿里系搜索引擎_

与传统mRAG受限于其静态检索策略相比，这种设计不仅提高了检索效率，而且显着增强了模型生成内容的准确性。

为了评估 OmniSearch，研究团队构建了一个新的 Dyn-VQA 数据集。

在一系列基准数据集的实验中，OmniSearch 展示了显着的性能优势。尤其是在处理需要多步骤推理、多模态知识和快速变化答案的问题时，OmniSearch 的表现比现有的 mRAG 方法更好。

目前，OmniSearch 仍然有一个可以在 Magic Community 中玩的演示版。

动态检索规划框架打破了传统mRAG的局限性

传统的mRAG方法遵循固定的搜索过程。典型步骤如下：

OmniSearch旨在解决传统mRAG方法的以下痛点：

为了克服上述限制，OmniSearch 引入了动态搜索规划框架。

_阿里的搜索软件叫什么_阿里系搜索引擎

OmniSearch 的核心架构包括：

阿里系搜索引擎_阿里的搜索软件叫什么_

构建新的数据集进行实验评估

为了更好地评估 OmniSearch 和其他 mRAG 方法的性能，研究团队构建了新的 Dyn-VQA 数据集。 Dyn-VQA包含1452个动态问题，涵盖以下三种类型：

这类问题需要比传统VQA数据集更复杂的检索过程，考验多模态检索方法规划复杂检索的能力。

阿里系搜索引擎_阿里的搜索软件叫什么_

Dyn-VQA 数据集上的性能

_阿里系搜索引擎_阿里的搜索软件叫什么

其他数据集上的表现

接近人类水平的性能：

OmniSearch 在大多数 VQA 任务上实现了接近人类水平的性能。例如，在VQAv2和A-OKVQA数据集中，OmniSearch的准确率分别达到70.34和84.12，显着超越传统的mRAG方法。

复杂问题处理能力：

在更具挑战性的 Dyn-VQA 数据集上，OmniSearch 通过多步检索策略显着提高了模型的性能，达到了 50.03 的 F1-Recall 分数，这几乎比基于 GPT 的传统两步检索方法有所提高。 4V。 14分。

阿里的搜索软件叫什么__阿里系搜索引擎

阿里系搜索引擎__阿里的搜索软件叫什么

模块化和可扩展性

OmniSearch 可以灵活地集成不同规模和类型的多模态大语言模型（MLLM）作为子问题求解器。

无论是开源模型（如Qwen-VL-Chat）还是闭源模型（如GPT-4V），OmniSearch都可以通过动态编程与这些模型协作来解决复杂问题。

其模块化设计允许根据任务需求选择最合适的模型，甚至可以在不同阶段调用不同规模的MLLM，以实现性能和计算成本之间的灵活平衡。

以下是OmniSearch和不同模型的实验结果：

_阿里系搜索引擎_阿里的搜索软件叫什么

纸：

GitHub：

模型范围演示：

下一篇： ChatGPT神秘故障：David Mayer身份成谜，网友热议背后的真相
上一篇： 春节火车票抢购难：抢票软件仍可使用，需警惕自动支付与加速包陷阱

软件行业资讯

阿里通义实验室推出自适应规划多模态检索智能体OmniSearch

相关内容查看全部 

饿了么签署全国首

AI时代：从J.K.罗

2025年中国好房子

个人养老金产品突

iPhone 17 Air将

尊界S800内饰设计

华为尊界S800豪华

达摩院DyDiT架构

2025年DeepSeek火

美国NSF研究经费

阿里通义实验室推出自适应规划多模态检索智能体OmniSearch

相关内容 查看全部 

相关内容查看全部 