272
// 项目简介
Web-Bench 是一项综合性基准测试,旨在评估大语言模型处理现实世界 Web 开发任务的有效性。它包含 50 个具有顺序依赖关系的复杂项目,模拟了专业的工程工作流程。该基准测试提供了一个极具挑战性的环境,即使是目前最先进的模型也显示出巨大的改进空间。
// 技术分析
Web-Bench 是一个专门的基准测试,旨在评估 Large Language Models 执行模拟真实工程工作流的复杂、多步骤 Web 开发任务的能力。通过利用由经验丰富的工程师创建的 50 个具有顺序依赖关系的项目,它解决了 HumanEval 和 MBPP 等现有基准测试趋于饱和的问题,提供了一个更具挑战性的环境。该项目优先考虑基础 Web 标准和框架熟练度,为评估专业开发环境中的 AI 代码生成能力提供了严格的指标。
// 核心亮点
01
包含 50 个不同的 Web 开发项目,每个项目包含 20 个顺序任务,以模拟真实的、多步骤的编码工作流。
02
通过关注基础 Web 标准和现代 Web 框架,涵盖了广泛的 Web 开发领域。
03
提供了一个高难度的评估环境,即使是像 Claude 3.7 Sonnet 这样的最先进模型,其 Pass@1 率也仅为 25.1%。
04
为 SWE-bench 等现有基准测试提供了一个更具挑战性的替代方案,有助于确定当前 LLM 代码生成的真正极限。
05
包含托管在 Hugging Face 上的综合排行榜和数据集,以促进透明的模型性能比较。
06
支持通过 Docker 进行容器化评估,确保为不同的 LLM 配置提供一致且可重复的测试环境。
// 典型使用场景
01
评估 LLM 在复杂、多步骤 Web 开发任务中的性能
02
针对现实世界的 Web 标准和框架对代码生成能力进行基准测试
03
评估模型在顺序项目功能实现方面的熟练程度
// 快速开始
首先,创建一个包含 config.json5 文件的目录以指定目标模型,并创建一个 docker-compose.yml 文件来配置环境。在 docker-compose 文件中填入必要的 API keys,并将配置挂载到提供的 Docker 镜像中。最后,执行 'docker compose up' 来运行评估并在本地目录中生成报告。