CloudNative環境におけるトラブルシューティングガイド

Track C 2023/12/12 15:20-16:00

中級者   Operation / Monitoring / Logging    

CloudNativeなシステムではマネージドサービスの利用によって比較的簡単にサービスを運用することができますが、それでもさまざまな障害を経験することがあります。メルペイにおいて4年以上クラウド上でサービスを運用してきた経験をもとに、クラウドを利用する環境においてどのように障害を検知してどのように対応・解決するのか、アラートやインシデントに対するチームの取り組みを紹介します。

Junichiro Takagi
株式会社メルペイ
SRE Tech Lead

2018年にメルペイにSREとして入社し、メルペイのシステムの構築やSREチームの立ち上げを行いました。クラウド上での金融サービスの構築運用を5年くらいやっています。いまはメルペイとメルコインという2つのサービスを見るSREチームのTech Leadを担当しています。