ホームAITracer-Cloud/opensre
// archived 2026-04-18
Tracer-Cloud

opensre

DevOps#AI#SRE#Kubernetes#Observability#Automation
GitHub で見る →
87

// 概要

OpenSRE は、開発者がインフラのインシデント調査や対応を行う AI エージェントを構築・デプロイするために設計されたオープンソースフレームワークです。本フレームワークは、様々なクラウド環境で synthetic RCA スイートやエンドツーエンドテストを実行するための包括的な環境を提供します。既存の可観測性ツールやインフラツールを接続することで、自動化された推論と根拠に基づいた根本原因分析を実現します。

// 技術解説

OpenSRE は、自律的なインフラストラクチャのインシデント調査および対応が可能な AI エージェントを構築・トレーニングするために設計されたオープンソースフレームワークです。合成インシデントシミュレーションとエンドツーエンドのテストを備えた強化学習環境を提供することで、本番環境のデバッグにおける標準化されたトレーニングデータの不足という課題に対処します。このプロジェクトは、ローカルインフラストラクチャへのデプロイと、既存のオブザーバビリティツールやクラウドツールとの深い統合を重視しており、断片的なシステムシグナルと実行可能な根本原因分析との間のギャップを埋めることを目指しています。

// 主要ハイライト

01
現実的なインフラストラクチャの障害シナリオで AI エージェントをトレーニングするためのオープンな強化学習環境を提供します。
02
40 以上の統合されたクラウドツールやオブザーバビリティツールにわたるログ、メトリクス、トレースを相関させることで、自動化された根本原因分析をサポートします。
03
エージェントの精度、証拠収集能力、および敵対的な誤情報に対する回復力をテストするための合成インシデントシミュレーションスイートが含まれています。
04
Runbook を認識した推論を提供し、インシデント対応中にエージェントが既存の運用ドキュメントを読み取り、適用できるようにします。
05
柔軟な LLM サポートを特徴としており、Anthropic、OpenAI、Ollama、NVIDIA NIM など、ユーザーが好みのモデルを接続できます。
06
Kubernetes、AWS、GCP などの複雑なクラウド環境全体でエンドツーエンドのテストを可能にし、現実の条件下でのエージェントのパフォーマンスを検証します。

// ユースケース

01
本番環境におけるインシデント調査と根本原因分析の自動化
02
synthetic RCA スイートの実行とエンドツーエンドのインフラテスト
03
Runbook を考慮した推論による修復アクションの提案と実行

// クイックスタート

開始するには、提供されているシェルスクリプトまたは Homebrew スクリプトを使用して OpenSRE CLI をインストールしてください。「opensre onboard」を実行して LLM プロバイダーを設定し、インフラストラクチャツールを接続します。その後、JSON アラートフィクスチャを指定して「opensre investigate」を実行し、最初のインシデント分析を開始してください。