エントリー済み

Serverless環境のSREプラクティス — 信頼性を「サービスの振る舞い」で設計する

中級者 - Intermediate SRE

Serverless 環境では「ノード」が存在せず、CPU/メモリはクラウドプロバイダが管理しています
従来の SRE プラクティス — インフラメトリクス監視、liveness probe、HPA — が適用できません
「では SRE は何を監視するのか?」これは Serverless を本番運用する多くの組織が直面する課題です
本セッションでは、3つの Lambda ベースサービスを10以上の AWS アカウントで運用する中で体系化した「Serverless SRE の3原則」を紹介します
(1) 振る舞いを監視する — SLI/SLO 設計と閾値チューニングの判断軸、エラーバジェット運用の考え方
(2) サービス境界に集中する — Non-transient エラーのリトライ禁止原則とタイムアウト早期警告
(3) 自律回復を設計する — DynamoDB 分散ロック・DLQ アラーム
この3原則から、Serverless SRE を始めてみましょう。

Speaker

Shiro Seike

株式会社Fusic

エバンジェリスト

株式会社Fusic エバンジェリスト
AWS Community Builder (Serverless) / 2025 Japan AWS Top Engineer
JAWS DAYS 2026 実行委員長、ServerlessDays Fukuoka 2019 主催
AWS Lambda ベースの Serverless マイクロサービスを複数本番運用
コミュニティでの登壇を生業としています