Tracer-Cloud

opensre

DevOps#AI#SRE#Kubernetes#Observability#Automation

// 项目简介

OpenSRE 是一个开源框架，旨在帮助开发人员构建和部署用于基础设施事件调查与响应的 AI Agent。它提供了一个全面的环境，用于在各种云支持的场景中运行合成 RCA 套件和端到端测试。通过连接现有的可观测性和基础设施工具，该平台能够实现自动推理和基于证据的根本原因分析。

// 技术分析

OpenSRE 是一个开源框架，旨在构建和训练能够进行自主基础设施故障调查与响应的 AI Agent。通过提供包含合成故障模拟和端到端测试的强化学习环境，它解决了生产环境调试中缺乏标准化训练数据的问题。该项目强调本地基础设施部署，并与现有的可观测性和云工具深度集成，从而弥合分散的系统信号与可操作的根本原因分析之间的差距。

// 核心亮点

提供一个开放的强化学习环境，用于在真实的基础设施故障场景中训练 AI Agent。

支持通过关联 40 多种集成云和可观测性工具的日志、指标和追踪数据，进行自动化的根本原因分析。

包含一套合成故障模拟工具，用于测试 Agent 的准确性、证据收集能力以及对对抗性干扰的抵御能力。

提供具备 Runbook 感知能力的推理功能，允许 Agent 在事件响应期间读取并应用现有的运维文档。

支持灵活的 LLM，用户可以连接自己偏好的模型，包括 Anthropic、OpenAI、Ollama 和 NVIDIA NIM。

支持在 Kubernetes、AWS 和 GCP 等复杂云环境中进行端到端测试，以验证 Agent 在真实条件下的性能。

// 典型使用场景

自动化的生产环境事件调查和根本原因分析

执行合成 RCA 套件和端到端基础设施测试

基于 Runbook 的推理以建议并执行修复操作

// 快速开始

首先，使用提供的 shell 或 Homebrew 脚本安装 OpenSRE CLI。运行 'opensre onboard' 来配置您的 LLM 提供商并连接您的基础设施工具，然后使用带有 JSON 告警固件的 'opensre investigate' 命令开始您的第一次故障分析。