「わたしがやっていることは、果たしてSREと呼べることなのだろうか?」
インフラのコード化やサーバーの構築・運用を日々こなしながらも、どこかアプリ開発やプロダクトの信頼性から切り離されているような感覚を、わたしは抱いていました。
そんな折、わたしたちのチームでは、突発的なDBの高負荷をきっかけに、負荷試験・速度改善の取り組みを始めることに。
エンタープライズ向けの監視ツールはありませんでしたが、そこは「あるものでやる。ないものは作る。」
Pythonライブラリの「Locust」でテストを作り、Google Cloud APIを叩く独自のスクリプトを書いてメトリクスとログを抽出する、自前の試験実行・結果確認の仕組みを構築しました。
生成AIの力も借りつつ結果を分析する中で、オブザーバビリティが上がっていき、アプリ開発やプロダクトの信頼性(SRE)との距離も縮まりました。
本セッションでは、負荷試験を通じて「積み上げ式」にオブザーバビリティを構築し、システムの「コンテキスト」をエンジニアリングし続ける、その活動から得られた知見とノウハウを共有します。
フェンリル株式会社
エンジニア
10年間のコンビニバイト期間を経て、IT業界へ。1社目で開発に関わったシステムがきっかけで、クラウドに興味を持つように。もっとクラウドがやりたくて、2社目(現職)に転職。クラウドエンジニアとして、インフラの設計・開発・構築業務を実施。現在はSaaSのインフラエンジニアとして、VSCodeとGeminiをお供に活動中。
DevRel/コミュニティ活動に興味があり、Jagu'e'r(関西分科会)やAI駆動開発勉強会(神戸支部)の運営にも携わっている。