LINEのプライベートクラウドプラットフォームであるVerdaは、LINEのエンジニアにいくつかのサービスを提供しています。
・Managed Kubernetes Cluster
・仮想マシンとベアメタルマシン
・これらのサービスは、Verdaの内部認証サービスであるKeystoneサービスに依存しています。LINEの重要なサービスをVerdaに移行するにつれ、Keystoneは信頼性の面で大きな課題を抱えており、2021年のはじめにはVerdaのコントロールプレーンにいくつかの深刻なサービス障害が発生しました。私たちはエンジニアとして、どうすればその信頼性を向上させることができるかを考え始めました。
このセッションでは、以下のことを紹介します。
・認証サービスに起因するコントロールプレーン停止のケーススタディ
・障害発生時のレビューで判明したアーキテクチャ上の問題点と依存関係
・依存関係の問題を解決するためのデカップリング手法
・エッジ側でのステートレス検証のためのサイドカーパターン
・デカップリングの変更によるトークン問題の改善計画
※オリジナル音声の英語版はこちらです
https://youtu.be/Wa67SMSVUQc