bytedance

web-bench

AI#LLM#Benchmark#Code Generation#Web Development #Docker

272

// 概要

Web-Bench は、LLM が実際の Web 開発タスクをどの程度効果的に処理できるかを評価するために設計された包括的なベンチマークです。本ベンチマークは、プロフェッショナルなエンジニアリングワークフローをシミュレートする、順次依存関係を持つ 50 の複雑なプロジェクトで構成されています。最先端のモデルであっても大幅な改善の余地があることを示す、非常に挑戦的な環境を提供します。

// 技術解説

Web-Bench は、実際のエンジニアリングワークフローをシミュレートする複雑でマルチステップな Web 開発タスクを実行する能力について、Large Language Models を評価するために設計された専門的なベンチマークです。経験豊富なエンジニアによって作成された順次依存関係を持つ 50 のプロジェクトを活用することで、HumanEval や MBPP といった既存のベンチマークの飽和状態に対処し、より難易度の高い環境を提供します。このプロジェクトは基本的な Web 標準とフレームワークの習熟度を優先しており、プロフェッショナルな開発環境における AI コード生成能力を評価するための厳格な指標を提供します。

// 主要ハイライト

50 の異なる Web 開発プロジェクトを特徴としており、それぞれが現実的でマルチステップなコーディングワークフローをシミュレートするために 20 の順次タスクを含んでいます。

基本的な Web 標準とモダンな Web フレームワークの両方に焦点を当てることで、Web 開発の幅広い領域をカバーしています。

Claude 3.7 Sonnet のような最先端のモデルであっても Pass@1 レートが 25.1% という低い値になる、高難易度の評価環境を提供します。

SWE-bench のような既存のベンチマークよりも挑戦的な代替手段を提供し、現在の LLM によるコード生成の真の限界を特定するのに役立ちます。

透明性の高いモデル性能比較を促進するため、Hugging Face 上で包括的なリーダーボードとデータセットを提供しています。

Docker を介したコンテナ化された評価をサポートしており、異なる LLM 設定に対して一貫性があり再現可能なテスト環境を保証します。

// ユースケース

複雑で多段階の Web 開発タスクにおける LLM のパフォーマンス評価

実際の Web 標準やフレームワークに対するコード生成能力のベンチマーク

順次的なプロジェクト機能実装におけるモデルの習熟度の評価

// クイックスタート

開始するには、ターゲットモデルを指定するための config.json5 ファイルと、環境を構成するための docker-compose.yml ファイルを含むディレクトリを作成します。docker-compose ファイルに必要な API keys を入力し、提供された Docker イメージに構成をマウントします。最後に、「docker compose up」を実行して評価を行い、ローカルディレクトリにレポートを生成します。