CloudNative環境におけるトラブルシューティングガイド

CloudNativeなシステムではマネージドサービスの利用によって比較的簡単にサービスを運用することができますが、それでもさまざまな障害を経験することがあります。メルペイにおいて4年以上クラウド上でサービスを運用してきた経験をもとに、クラウドを利用する環境においてどのように障害を検知してどのように対応・解決するのか、アラートやインシデントに対して自分がどのように対応しているか、取り組みを紹介します。

Junichiro Takagi

登壇者プロフィール

Junichiro Takagi

株式会社メルペイ

SRE Tech Lead

tjun

tjun


2018年にメルペイにSREとして入社し、メルペイのシステムの構築やSREチームの立ち上げを行いました。クラウド上での金融サービスの構築運用を5年くらいやっています。いまはメルペイとメルコインという2つのサービスを見るSREチームのTech Leadを担当しています。