# 概要
障害訓練やってますか? やりたいですか?
やりましょう。メリットしかないです。
弊社ではHWを扱ったプロダクトを提供している関係で、障害発生時のトラブルシューティングは困難を極めます。
どれだけ時間をかけて設計しても穴はあります。想定外のことは発生します。
メンバーのスキル差は様々です。いつ何時なにが発生するかわかりません。
物理からクラウド、そして人災まで、あらゆる障害や問題に対処するための訓練を日頃から行っています。
まだまだ試行錯誤の最中ではありますが、おおむね1年以上の運用における現在の整理とこれからについてご紹介します。
# 対象者
・複数のプロダクト/複数カテゴリにまたがるサービスを提供しているスタートアップのエンジニア
・Opsを意識し出したエンジニア
# ざっくり内容
・ビットキーでなぜ障害訓練が必要であったか / そのキッカケや理由
・障害訓練とは? 障害訓練の効能
・ビットキーにおける障害訓練の運用例
・便利なツール群 / なぜ我々はそれを使わなかったか
株式会社ビットキー
Principal Engineer
株式会社ビットキーのIoTプラットフォームおよびプロトタイピングを担当。HW開発からFW, IoT, その先のSaaSへのインテグレートまで一気通貫に携わる。IoTとは総合格闘技。すべてをやれねばIoTエンジニアリングはできないと信じている。あらゆるレイヤーの設計開発を加速させるフルスタックアクセラレーター(自称)
このセッションに関する質問と回答
2点質問があります。
①障害訓練をやろうと決定してから、体制が整うまでにどの程度の期間を要しましたか。
②障害訓練は具体的にどのような環境(テスト環境、あるいは専用環境など)を使って実施されていますか。
ご質問ありがとうございます。また返信が遅れ申し訳ございません。以下、質問に可能な限り回答します。
> ①障害訓練をやろうと決定してから、体制が整うまでにどの程度の期間を要しましたか。
やろうと決めてから最初の開催までですと1ヶ月ぐらいだったかなと記憶しております。
とはいえ、何か大きな問題があって1ヶ月もかかった、ということでもなく、普段の業務の傍ら準備を進めそれぐらいの時間を要した、という感じですね。
その後、何度も繰り返すことになりますが、最初は試行錯誤が続きました。
セッションで言及したような型が固まったなと感じるまでには3-4ヶ月ぐらいはかかっていた印象があります。
あるいは、それが当たり前の文化として醸成されるまで... というと、やはりそれはすごく時間がかかりました。1年はかかりましたね。
> ②障害訓練は具体的にどのような環境(テスト環境、あるいは専用環境など)を使って実施されていますか。
原則、ステージング環境です。内容によっては本番使ったりもしますが今のところ珍しいです。
ステージングということでリリース前の新機能などに対しても仕掛けることができるので、開発期間が長めになったデカめの新機能などに対しては、負荷試験などと似たようなノリで事前に障害訓練をやる...というのもやります。
そうやって設計された信頼性設計や運用設計が正しく機能するか?を確かめてからリリースするイメージですね。