リアルタイムサーバー運用改善〜メタバースプラットフォームにおけるEKS運用とDatadog活用によるオートスケール実践〜

Proposal: (エントリー済み)

中級者   Operation / Monitoring / Logging

本セッションではメタバースプラットフォーム「ホロアース」の実運用経験から、タレント配信を支える高負荷・ステートフルな環境でのEKS運用ノウハウを共有します。元々ホロアースではユーザー間のリアルタイム位置同期システムの動作基盤としてEKSを採用していましたが、ユーザー数の増加に伴うネットワークやオートスケールに課題がありました。そこでまずはワークロードの特性に合わせたノード運用への移行を行うとともに、Datadogを活用しオブザーバビリティの構築を行うことでオートスケールを実現しました。

本セッションでは下記を中心に解説します。

- TerraformによるEKS環境のIaC化とArgoCDでのマルチクラスター管理への移行
- Cluster AutoScalerからKarpenterへの移行
- UDP通信等リアルタイムサーバー特有のネットワーク特性を考慮したNode運用改善
- 数百を超えるノードを扱う上で課題になる様々な問題への対処方法
- Datadogカスタムメトリクスを活用したオートスケールやリアルタイムサーバーにおける分散トレースの実装

Toshiki Ishii
カバー株式会社
SRE

本業SRE。アプリケーション開発からインフラの運用まで何でもやる人。パフォーマンスチューニングの話が好き。