本セッションではメタバースプラットフォーム「ホロアース」の実運用経験から、タレント配信を支える高負荷・ステートフルな環境でのEKS運用ノウハウを共有します。元々ホロアースではユーザー間のリアルタイム位置同期システムの動作基盤としてEKSを採用していましたが、ユーザー数の増加に伴うネットワークやオートスケールに課題がありました。そこでまずはワークロードの特性に合わせたノード運用への移行を行うとともに、Datadogを活用しオブザーバビリティの構築を行うことでオートスケールを実現しました。
本セッションでは下記を中心に解説します。
- TerraformによるEKS環境のIaC化とArgoCDでのマルチクラスター管理への移行
- Cluster AutoScalerからKarpenterへの移行
- UDP通信等リアルタイムサーバー特有のネットワーク特性を考慮したNode運用改善
- 数百を超えるノードを扱う上で課題になる様々な問題への対処方法
- Datadogカスタムメトリクスを活用したオートスケールやリアルタイムサーバーにおける分散トレースの実装