エントリー済み

推測ではなく計測を −2千万件のログ分析から導くキューの再設計と、監視によって進化するオートスケール戦略−

中級者 - Intermediate SRE

SaaSの成長に伴い、サービスのスケーラビリティは顧客体験・運用コストの生命線となります。本講演ではRedisからSQSへの移行に際し、データ分析に基づいた再設計と監視による継続的改善によって、理想的なオートスケールを実現したプロセスを解説します。

核となるのは「徹底した現状分析」です。半年分・約2千万件のログを分析し、全ジョブの90%以上が1秒以内、99%以上が10秒以内という特性を特定。これに基づき、短時間ジョブを滞留させない「顧客体験ファースト」な構成へリファクタリングしました。移行後は、滞留時間やスケーリング推移を詳細に可視化し、メトリクスから期待と実態の乖離を特定。オートスケールを実運用に即した形へ洗練させ、ノイジーネイバー問題を解消しました。

単なるツールの置き換えに留まらない、データに基づく設計の重要性と、可視化がもたらす運用の高度化について、具体的な分析手法や調整の知見を共有します。システム内部の抜本的な改善や基盤刷新を推進するエンジニアが、明日から実践できる「計測と再設計」のプロセスを持ち帰れる内容です。

Speaker

Kunimitsu Nishimuro

MNTSQ 株式会社

SRE / Tech Lead

MNTSQ株式会社 SRE Tech Lead。2023年に入社し、大規模なサービスのリアーキテクトに伴うインフラ・運用の再設計やデータ移行を主導。現在はテックリードとして、事業計画に紐づく技術的なリスクの評価や内部改善をリードしている。
データと経済合理性に基づき淡々と負債を摘み取る、誠実でドライなエンジニアリングが売り。