314
// 概要
EvoCUA は、多様なデスクトップアプリケーション全体でエンドツーエンドのコンピューター自動化を実現するために設計された、高性能なオープンソースのマルチモーダルモデルです。現在 OSWorld ベンチマークでトップランクを保持しており、優れたクロス OS 汎化能力を実証しています。さらに、主要なコンピューター使用エージェントの中で最も低い意図しない動作率を示しており、堅牢な安全性プロファイルでも高く評価されています。
// 技術解説
EvoCUA は、コンピューター操作向けに設計された汎用マルチモーダルエージェントであり、独自のデータ合成およびトレーニング手法を活用して、さまざまなデスクトップアプリケーション全体でパフォーマンスを向上させます。OSWorld ベンチマークで最先端の成果を達成することで、自然言語の指示を通じて複雑なマルチターンタスクを実行可能な、堅牢なオープンソースエージェントを作成するという課題に取り組んでいます。このプロジェクトはパフォーマンスと安全性の両方を優先しており、他の主要なコンピューター操作エージェントと比較して、意図しない動作に対する優れた堅牢性を示しています。
// 主要ハイライト
01
OSWorld ベンチマークにおいて、タスク完了率 56.7% で #1 のオープンソースモデルにランクインしています。
02
強力なゼロショットのクロス OS 汎化性能を示し、WindowsAgentArena においてベースモデルを大幅に上回る性能を発揮します。
03
モデルの一般的なパフォーマンスを犠牲にすることなく、コンピューター操作能力を向上させる新しいトレーニングおよびデータ合成アプローチを採用しています。
04
Chrome、Excel、PowerPoint、VSCode を含む一般的なデスクトップソフトウェアに対して、エンドツーエンドのマルチターン自動化を提供します。
05
独立した調査において最も安全なコンピューター操作エージェントとして検証されており、意図しない動作の発生率が最も低くなっています。
06
より大規模なモデルよりも少ないパラメーター数と実行ステップ数で競争力のあるパフォーマンスを達成し、高い効率性を提供します。
// ユースケース
01
Chrome、Excel、VSCode などのアプリケーションに対するエンドツーエンドのマルチターン自動化
02
多様なデスクトップ環境に向けたゼロショットのクロス OS 制御
03
コンピューター使用能力を向上させるためのスケーラブルな合成経験トレーニング
// クイックスタート
開始するには、リポジトリをクローンし、Python 3.12 を使用して必要な依存関係をインストールしてください。HuggingFace からモデルの重みをダウンロードし、OpenAI 互換の推論サーバーとして vLLM を使用してデプロイします。最後に、環境変数を設定し、提供されている評価スクリプトを使用して OSWorld 環境内でタスクを実行してください。