发布信息

阿里通义实验室推出自适应规划多模态检索智能体OmniSearch

作者:软荐小编      2024-12-04 15:01:03     70

由 OmniSearch 团队贡献

量子比特 |公众号QbitAI

多模态检索增强生成(mRAG)也像o1思考和推理!

阿里巴巴统一实验室新研究推出自适应规划多模态检索代理。

名为OmniSearch,它可以模拟人类思考解决问题的方式,逐步拆解复杂问题进行智能检索规划。

直接看效果:

阿里系搜索引擎_阿里的搜索软件叫什么_

只需上传图片并提出任何问题,OmniSearch 就会经历一个“思考过程”。它不仅会分解复杂的问题进行检索,还会根据当前的搜索结果和问题上下文动态调整下一步的搜索策略。

阿里的搜索软件叫什么_阿里系搜索引擎_

与传统mRAG受限于其静态检索策略相比,这种设计不仅提高了检索效率,而且显着增强了模型生成内容的准确性。

为了评估 OmniSearch,研究团队构建了一个新的 Dyn-VQA 数据集。

在一系列基准数据集的实验中,OmniSearch 展示了显着的性能优势。尤其是在处理需要多步骤推理、多模态知识和快速变化答案的问题时,OmniSearch 的表现比现有的 mRAG 方法更好。

目前,OmniSearch 仍然有一个可以在 Magic Community 中玩的演示版。

动态检索规划框架打破了传统mRAG的局限性

传统的mRAG方法遵循固定的搜索过程。典型步骤如下:

OmniSearch旨在解决传统mRAG方法的以下痛点:

为了克服上述限制,OmniSearch 引入了动态搜索规划框架。

_阿里的搜索软件叫什么_阿里系搜索引擎

OmniSearch 的核心架构包括:

阿里系搜索引擎_阿里的搜索软件叫什么_

构建新的数据集进行实验评估

为了更好地评估 OmniSearch 和其他 mRAG 方法的性能,研究团队构建了新的 Dyn-VQA 数据集。 Dyn-VQA包含1452个动态问题,涵盖以下三种类型:

这类问题需要比传统VQA数据集更复杂的检索过程,考验多模态检索方法规划复杂检索的能力。

阿里系搜索引擎_阿里的搜索软件叫什么_

Dyn-VQA 数据集上的性能

_阿里系搜索引擎_阿里的搜索软件叫什么

其他数据集上的表现

接近人类水平的性能:

OmniSearch 在大多数 VQA 任务上实现了接近人类水平的性能。例如,在VQAv2和A-OKVQA数据集中,OmniSearch的准确率分别达到70.34和84.12,显着超越传统的mRAG方法。

复杂问题处理能力:

在更具挑战性的 Dyn-VQA 数据集上,OmniSearch 通过多步检索策略显着提高了模型的性能,达到了 50.03 的 F1-Recall 分数,这几乎比基于 GPT 的传统两步检索方法有所提高。 4V。 14分。

阿里的搜索软件叫什么__阿里系搜索引擎

阿里系搜索引擎__阿里的搜索软件叫什么

模块化和可扩展性

OmniSearch 可以灵活地集成不同规模和类型的多模态大语言模型(MLLM)作为子问题求解器。

无论是开源模型(如Qwen-VL-Chat)还是闭源模型(如GPT-4V),OmniSearch都可以通过动态编程与这些模型协作来解决复杂问题。

其模块化设计允许根据任务需求选择最合适的模型,甚至可以在不同阶段调用不同规模的MLLM,以实现性能和计算成本之间的灵活平衡。

以下是OmniSearch和不同模型的实验结果:

_阿里系搜索引擎_阿里的搜索软件叫什么

纸:

GitHub:

模型范围演示:

相关内容 查看全部