私たちのチームでは、100を超えるKubernetesから構成される社内向けのPlatform as a Serviceを運用しています。この運用において、利用者の増加に伴い大量のメトリクスが課題となりました。特に既存の監視基盤が耐えられなくなることが懸念されました。この課題を解決するために、私たちは様々な構成を試み、改善を行いました。
本セッションでは、現状の構成に至るまでの運用者の課題と解決方法を説明します。そして、利用者増に耐えうるスケーラブルなメトリクス監視基盤の構築と効率的なメトリクス圧縮及び保存の実現方法について説明します。特に監視基盤や改善を行った際の知見、実際のアーキテクチャなどを用いながら説明を行います。