フトコロ厳しいエンタープライズSREがDatadog脱却のためにOSSでオブザバ計装してみた

Proposal (採択待ち)

中級者      

KDDIではクラウド(AWS)環境のオブザーバビリティのためにDatadogを広く使っています。
Datadogは非常にパワフルなツールですが、サブスクリプション方式で監視対象が増えるにつれ費用が膨らむという課題がありました。
そこでPrometheus, VictoriaMetrics, Grafana, Tempo, OpenTelemetry, Loki等のOSSのみでオブザーバビリティを実現しようとPoCを進めていました。
しかし、少ないチームメンバーで上記ツールをすべて構築・運用するのは少し厳しいところがあると考えていたところ、
AMP(Amazon Managed Service for Prometheus), AMG(Amazon Managed Grafana), ADOT(AWS Distro for OpenTelemetry)が2021年9月にGAとなったので、
AMP, AMG, X-Ray等、AWSマネージドサービスを活用した構成への移行を検討/検証しています。

オブザーバビリティを実現したいけど費用と構築・運用の工数は押さえたいと考えている
システム担当者・運用者の方向けに当社の取り組みをお話いたします。

Joonki Lee
KDDI株式会社
SRE

2020年7月KDDI入社。SREとして運用自動化やAWS上の運用共通機能の構築等を担当しています。