bytedance

web-bench

AI#LLM#Benchmark#Code Generation#Web Development #Docker

272

// 项目简介

Web-Bench 是一项综合性基准测试，旨在评估大语言模型处理现实世界 Web 开发任务的有效性。它包含 50 个具有顺序依赖关系的复杂项目，模拟了专业的工程工作流程。该基准测试提供了一个极具挑战性的环境，即使是目前最先进的模型也显示出巨大的改进空间。

// 技术分析

Web-Bench 是一个专门的基准测试，旨在评估 Large Language Models 执行模拟真实工程工作流的复杂、多步骤 Web 开发任务的能力。通过利用由经验丰富的工程师创建的 50 个具有顺序依赖关系的项目，它解决了 HumanEval 和 MBPP 等现有基准测试趋于饱和的问题，提供了一个更具挑战性的环境。该项目优先考虑基础 Web 标准和框架熟练度，为评估专业开发环境中的 AI 代码生成能力提供了严格的指标。

// 核心亮点

包含 50 个不同的 Web 开发项目，每个项目包含 20 个顺序任务，以模拟真实的、多步骤的编码工作流。

通过关注基础 Web 标准和现代 Web 框架，涵盖了广泛的 Web 开发领域。

提供了一个高难度的评估环境，即使是像 Claude 3.7 Sonnet 这样的最先进模型，其 Pass@1 率也仅为 25.1%。

为 SWE-bench 等现有基准测试提供了一个更具挑战性的替代方案，有助于确定当前 LLM 代码生成的真正极限。

包含托管在 Hugging Face 上的综合排行榜和数据集，以促进透明的模型性能比较。

支持通过 Docker 进行容器化评估，确保为不同的 LLM 配置提供一致且可重复的测试环境。

// 典型使用场景

评估 LLM 在复杂、多步骤 Web 开发任务中的性能

针对现实世界的 Web 标准和框架对代码生成能力进行基准测试

评估模型在顺序项目功能实现方面的熟练程度

// 快速开始

首先，创建一个包含 config.json5 文件的目录以指定目标模型，并创建一个 docker-compose.yml 文件来配置环境。在 docker-compose 文件中填入必要的 API keys，并将配置挂载到提供的 Docker 镜像中。最后，执行 'docker compose up' 来运行评估并在本地目录中生成报告。