VictoriaMetrics & Loki 徹底解剖:内部実装の理解と大規模環境でのチューニング

Proposal: (不採択)

上級者   Operation / Monitoring / Logging

本セッションでは、VictoriaMetricsとLokiのアーキテクチャや内部実装を踏まえ、大規模環境でのメトリクスおよびログ収集を安定・高速かつ効率的に行うための具体的チューニング手法を解説します。
【メトリクス】
・Multi-level cluster設定と、vmselectによるプロキシを応用したOSS版では実現できないRetention管理を運用しコスト削減を実現した方法
・内部メトリクスとE2Eテストを組み合わせたロールアウト時の遅延可視化と、遅延を最小化するための具体的なチューニング項目
【ログ】
・Lokiのv3 TSDBスキーマへ移行する際のメリットと必要なステップ、移行時の注意点やダウンタイムを抑えるコツ
・structured_metadataを活用し、高カーディナリティログのラベル爆発を抑える方法、さらにLogQLをどう書き換えるのかといった実践的ポイント
大規模運用で直面しがちな課題とベストプラクティスを共有し、より安定性と拡張性に優れたテレメトリ基盤を構築するための知見を提供します。

Tsubasa Oura
株式会社サイバーエージェント
インフラエンジニア

2024年に株式会社サイバーエージェントに新卒入社し、社内のインフラ基盤を開発・運用する組織(CIU)に配属される。KaaSの開発・運用を行うチームに所属し、主にカスタムコントローラの開発やVictoriaMetricsをはじめとしたメトリクス基盤の運用、社内認証基盤の統合を担当。現在は、大規模クラスタ環境での監視システムの構築・運用を通じて、インフラの可視化と迅速な問題解決に貢献している。

Yuta Nagai
株式会社サイバーエージェント
インフラエンジニア

2024年に株式会社サイバーエージェントに新卒入社。社内のインフラ基盤を開発・運用する組織(CIU)にて、KaaSの開発・運用を行うチームに所属。KaaS 基盤のカスタムコントローラー開発やログ基盤の運用を担当。