アラートの調査と対応は、多くの現場で属人化が進み、特定の有識者に依存しがちです。経験の浅いメンバーでは適切な判断が困難だったり、インフラレイヤーの問題なのかアプリ側の問題なのかの切り分けなど、原因特定に多くの時間がかかる場合も少なくないと思います。
本セッションでは、上記の課題に対して、監視ツールからのアラートをトリガーに、原因分析から解決策の提案までを自動で行うLangGraphを用いて開発したAI Agentシステムについてご紹介します。
昨今AI Agentを活用した分析ツールが多く見られますが、Agentの分析の精度を上げるためにはコンテキスト情報が欠かせません。
そこで、コンテキスト情報のためにCMDBをどう活用しているか、インシデント管理ツールとどう連携しているかについても話します。
また、アラートとコードとの関連性を調べてコード修正の提案まで行う機能や、複数のオブザーバビリティツールからのアラートに対応した話などについても共有します。