87
// 项目简介
OpenSRE 是一个开源框架,旨在帮助开发人员构建和部署用于基础设施事件调查与响应的 AI Agent。它提供了一个全面的环境,用于在各种云支持的场景中运行合成 RCA 套件和端到端测试。通过连接现有的可观测性和基础设施工具,该平台能够实现自动推理和基于证据的根本原因分析。
// 技术分析
OpenSRE 是一个开源框架,旨在构建和训练能够进行自主基础设施故障调查与响应的 AI Agent。通过提供包含合成故障模拟和端到端测试的强化学习环境,它解决了生产环境调试中缺乏标准化训练数据的问题。该项目强调本地基础设施部署,并与现有的可观测性和云工具深度集成,从而弥合分散的系统信号与可操作的根本原因分析之间的差距。
// 核心亮点
01
提供一个开放的强化学习环境,用于在真实的基础设施故障场景中训练 AI Agent。
02
支持通过关联 40 多种集成云和可观测性工具的日志、指标和追踪数据,进行自动化的根本原因分析。
03
包含一套合成故障模拟工具,用于测试 Agent 的准确性、证据收集能力以及对对抗性干扰的抵御能力。
04
提供具备 Runbook 感知能力的推理功能,允许 Agent 在事件响应期间读取并应用现有的运维文档。
05
支持灵活的 LLM,用户可以连接自己偏好的模型,包括 Anthropic、OpenAI、Ollama 和 NVIDIA NIM。
06
支持在 Kubernetes、AWS 和 GCP 等复杂云环境中进行端到端测试,以验证 Agent 在真实条件下的性能。
// 典型使用场景
01
自动化的生产环境事件调查和根本原因分析
02
执行合成 RCA 套件和端到端基础设施测试
03
基于 Runbook 的推理以建议并执行修复操作
// 快速开始
首先,使用提供的 shell 或 Homebrew 脚本安装 OpenSRE CLI。运行 'opensre onboard' 来配置您的 LLM 提供商并连接您的基础设施工具,然后使用带有 JSON 告警固件的 'opensre investigate' 命令开始您的第一次故障分析。