52
// 项目简介
Dothething 是一个本地 AI Agent,能够自主处理研究、浏览器自动化和代码执行等复杂任务。它能够规划自身工作、管理工具,并支持通过自定义技能或 MCP servers 进行扩展。该系统支持持久化会话、成本跟踪以及用于管理多个并行 Agent 的 orchestrator 模式。
// 技术分析
Dothething (DTT) 是一个本地 AI 代理,旨在通过将复杂的、多步骤的任务分解为可管理的子任务并利用多样化的工具套件来自主执行任务。其架构利用 Claude Opus 通过 OpenRouter 作为主要决策者,同时采用专门的模型进行摘要和基于 oracle 的验证,以优化性能和成本。通过集成浏览器自动化、文件操作和自定义技能注入,该项目解决了手动工作流执行的问题,允许用户将研究、编码和数据提取任务委托给一个能够管理自身进度和配置的代理。
// 核心亮点
01
自主任务分解允许代理规划工作、跟踪进度并选择合适的工具,而无需用户持续干预。
02
先进的网页交互能力利用 Notte 和 Camoufox 来抓取内容、解决验证码并处理复杂的多步骤浏览器工作流。
03
可扩展的技能系统使用户能够通过 Markdown 文件定义自定义行为,这些行为可以直接注入到代理的上下文中或作为独立的子任务运行。
04
Orchestrator 模式提供了一个终端 UI 来管理多个并行代理,包括一个可以在并发会话中分配工作的智能启动器。
05
注重成本的设计功能包括 Anthropic 提示词缓存、Token 使用跟踪以及设置带有状态检查点的硬性支出限制的能力。
06
通过 MCP 服务器兼容性和用于复杂构建或调试任务的持久 Shell 环境,支持与现有基础设施的无缝集成。
// 典型使用场景
01
使用 Notte 和 Camoufox 进行自动化网络研究和浏览器交互
02
文件编辑、shell 命令执行以及代码开发任务
03
针对复杂项目的多 Agent 编排,并具备成本和循环限制功能
// 快速开始
首先,克隆存储库并执行 dtt.sh 脚本,并输入描述您任务的提示词。系统将自动设置 Python 虚拟环境,并提示您输入必要的 API 密钥,这些密钥将安全地存储在 ~/.dtt/env 中。然后,您可以使用诸如 --orchestrator(用于并行任务)或 --resume(用于继续之前的工作)等标志来探索高级功能。