首页TypeScriptalibaba/page-agent
// archived 2026-04-14
alibaba

page-agent

前往 GitHub →
17,425

// 项目简介

Page Agent 是一个客户端库,支持直接在浏览器内通过自然语言控制网页界面。它利用基于文本的 DOM 操作与元素交互,无需截图或复杂的 headless browser 设置。开发者可以轻松集成此工具来构建 AI copilot、自动化表单填写或增强网页可访问性。

// 技术分析

Page Agent 是一个客户端库,旨在实现直接在浏览器内通过自然语言控制 Web 界面。通过利用基于文本的 DOM 操作而非资源密集型的截图或多模态 LLM,它为向现有 Web 应用程序添加 AI 驱动的自动化功能提供了一种轻量级解决方案。这种架构优先考虑了集成的简易性,使开发人员无需重写后端或开发复杂的浏览器扩展即可实现 AI 副驾驶或辅助功能。

// 核心亮点

01
无需浏览器扩展或无头浏览器,即可直接通过页面内 JavaScript 实现对 Web 界面的自然语言控制。
02
利用基于文本的 DOM 操作与 Web 元素交互,避免了对多模态 LLM 或复杂权限设置的需求。
03
提供“自带 LLM”(Bring Your Own LLM)方案,允许开发人员集成其首选的语言模型来执行任务。
04
支持可选的 Chrome 扩展集成,以促进跨多个浏览器标签页的复杂任务。
05
提供处于测试阶段的 MCP (Model Context Protocol) 服务器,使外部客户端能够控制浏览器环境。
06
通过将多步工作流程转化为单一的自然语言指令,简化了 AI 副驾驶、智能表单填充和辅助功能的实现。

// 典型使用场景

01
SaaS AI Copilot 集成
02
智能表单填写与工作流自动化
03
通过自然语言指令实现网页可访问性

// 快速开始

首先,您可以选择通过 script 标签引入该库进行快速演示,或者使用 'npm install page-agent' 进行安装以实现程序化控制。安装完成后,使用您的首选 LLM 配置(包括模型名称和 API 密钥)初始化 PageAgent 类。最后,使用 'agent.execute' 方法传入自然语言指令,让代理在当前网页上执行操作。