meituan

EvoCUA

AI#LLM#Multimodal#Agent#Computer Use#vLLM

314

// 项目简介

EvoCUA 是一款高性能开源多模态模型，专为跨各种桌面应用程序的端到端计算机自动化而设计。它目前在 OSWorld 基准测试中排名第一，并展现出卓越的跨操作系统泛化能力。此外，该模型以其强大的安全配置而闻名，在领先的计算机使用智能体中表现出最低的非预期行为率。

// 技术分析

EvoCUA 是一款专为计算机使用而设计的通用多模态智能体，利用一种新颖的数据合成和训练方法来提升其在各种桌面应用程序中的性能。通过在 OSWorld 基准测试中取得最先进的结果，它解决了创建能够通过自然语言指令执行复杂多轮任务的稳健开源智能体的挑战。该项目兼顾性能与安全性，在防止意外行为方面表现出比其他领先的计算机使用智能体更强的稳健性。

// 核心亮点

在 OSWorld 基准测试中排名第一，任务完成率为 56.7%。

展示了强大的零样本跨操作系统泛化能力，在 WindowsAgentArena 上显著优于基础模型。

采用了一种新颖的训练和数据合成方法，在不牺牲通用模型性能的前提下提升了计算机使用能力。

为包括 Chrome、Excel、PowerPoint 和 VSCode 在内的常用桌面软件提供端到端的多轮自动化功能。

经独立研究验证为最安全的计算机使用智能体，表现出最低的意外行为发生率。

通过较少的参数和较少的执行步骤实现具有竞争力的性能，从而提供高效率。

// 典型使用场景

针对 Chrome、Excel 和 VSCode 等应用程序的端到端多轮自动化

针对不同桌面环境的零样本跨操作系统控制

用于提升计算机使用能力的可扩展合成经验训练

// 快速开始

首先，克隆存储库并使用 Python 3.12 安装所需的依赖项。从 HuggingFace 下载模型权重，并使用 vLLM 将其部署为兼容 OpenAI 的推理服务器。最后，配置环境变量并使用提供的评估脚本在 OSWorld 环境中运行任务。