弊社組織では社内共通基盤のプラットフォームを構築しており、100個ほどのマイクロサービスが稼働しています。そしてこれらを200人のエンジニアで日々開発していて、弊社SREは15名でこのマイクロサービスの運用・問い合わせに対応していますが、こうした日々のタスクに追われて本来の目的あるSRE Enablingがなかなか進んでいません。その時間を捻出するため、我々はTry&Errorを繰り返しながら運用にAIを実装してきました。今回はそういった泥臭い実装例をお話したいと思います。
本セッションでは、以下のトピックについてお話します。AI活用に悩まれているSREの方に是非きいていただきたいです!
- Linear x Codex/Devinで全microserviceのTerraform Module updateを効率よく行う
- AIによるレビューで200 PR/dayの50%は自動化
- 問い合わせ・トラブルシューティングをAIにやってもらうために必要なskills
- Production Readiness Check(PRC)のEvidence確認もAIにやってもらおう
株式会社LegalOn Technologies
SRE
大学院修了後、分析装置や医用装置を扱うメーカーに就職して、組み込みエンジニアとして従事。メーカー退職後はスタートアップ界隈を渡り歩き、その間ロールもフロントエンドエンジニアだったり、バックエンドエンジニアだったりと変遷して、5年ほど前からSREとして落ち着く。以降Reliabilityを追求する旅を続けている。最近ではObservabilityを特に突き詰めている。
LegalOn Technologies, Inc.
SRE
新卒でゲーム会社に入社。フロントエンドエンジニアとしてキャリアをスタートし、その後バックエンドとインフラも担当。プロダクト開発やインフラ整備などエンジニアとしての業務を経験した後、2021年3月にLegalOnへ入社。現在はSRE&PlatformチームでSREとして活躍中。
このセッションに関する質問と回答
質問です。
プラットフォームチーム内では、チーム設計はどのような単位で境界を定義して運用されていましたか?
各開発チームからの問い合わせ負荷が多いということで、モノリシックな単一のプラットフォームチームではあまりにも責任範囲が広すぎると感じるので、プラットフォーム内でもフラクタルにチームを分けて運用しているのかと思いましたが、いかがでしょうか?
発表では割愛してしまいましたが、弊社のPlatform("Akupara"という名前がついています) は、Product EngineerとSRE共同で運営をしている形となっています。このPlatformの主にInfra部分をSREが運用している形になります。さらに、SREはProduct SRE/Core SREというチームに分かれており、Product SREが各Stream Aligned TeamにEmbedしているような体制となっています。各プロダクト固有のInfrastructureに関してはProduct SREが対応し、共通Infrastructureに関してはCore SREが対応する、という体制となっています。今日の話はCore SREからの目線として受け取っていただければと思います。