クラウド規模のシステム運用では、どのように高い信頼性や安定した稼働が維持されているのでしょうか?
Azure は全世界に数百万台ものサーバーを擁し、開発チームとSREチームがその安定稼働を日々支えています。
本セッションでは、AzureのSRE組織の構成と役割を紹介し、インシデント管理/障害管理、SLI/SLO管理、監視といった運用プロセスを紐解きます。
また、大規模運用を支えるインシデント管理の自動化やAIOps活用の実例も取り上げます。さらに、Change SREチームが実践する変更管理の取り組みとして、AzureにおけるSafe Deployment Practices (SDP) や Ready to Deploy (R2D) の仕組みを紹介し、クラウドスケールの運用の手法を共有します。
主に話す内容:
・AzureのSREの位置づけ
・AzureのSREの役割(インシデント管理、SLO管理、監視、etc)
・大規模運用を支えるAIOpsの活用事例
・変更管理の実際:Safe Deployment Practices (SDP) と Ready to Deploy (R2D) の概要と実践