エントリー済み

その例外対応、まだ自前でやってますか?〜 自作ツールを手放し、Datadogで例外運用を再構築した話〜

全て - Any Cloud Native

日々のアプリケーション例外への対応...どのシステム現場にもある運用だと思われます。
Eightでも例に漏れず、数百件/日のオーダで発生する例外をDBに保存し、独自のツールで運用してきました。しかし、新メンバーの学習コストの高さ、ツールの保守といった独自実装による問題もありました。そこで、Eightでは例外の保存先をDatadogへ移行し、Datadogの機能を活用した運用へ置き換えました。

本セッションでは、「ログサイズが大きい」といった例外の特性を踏まえたログパイプラインの設計(Fluent Bit/Fluentd)と、Datadogの機能を活用するためのログフォーマット設計について解説します。さらに「特定の例外を許容しつつ別の閾値で監視する」などをはじめとした独自の運用要件を再整理し、Datadogの機能で実現することで、通知ノイズの削減・シンプルな運用へ進化させました。これにより5人日/月で対応していた例外の確認・対応時間の効率化が見込まれています。

独自ツールによる例外運用の負荷をSaaSへオフロードしたいSRE/開発者向けの実践事例です。

Speaker

Kengo Takei

Sansan株式会社

SRE

空調機メーカー、SES企業を経て2023年5月にSansanへ名刺アプリEightのインフラエンジニアとして入社。
現在はPlatformグループSREチームに所属。
Eight在籍中に半年間、開発チームへの留学を経験し、そこで得たバックエンドの知見をSREチームへ還元。インフラだけでなく複合的な視点で信頼性と向き合える組織づくりに奮闘中。