1. ゆるITエンジニア道場
  2. ヒヤリハットと本番障害で強く..
2026-01-19 09:00

ヒヤリハットと本番障害で強くなる

本番環境などでやらかしちゃった人 Advent Calendar 2025

https://qiita.com/advent-calendar/2025/yarakashi

ーーー

riddle :

ひびの : https://x.com/nasustim


番組へのお便りはこちら:https://forms.gle/gp78XNFgERDFDkb88


サマリー

このエピソードでは、ヒヤリハットと本番障害の重要性を探り、発生を未然に防ぐアプローチについて考察しています。特にIT業界における本番環境での失敗がもたらす影響と、そこから学べる成長の機会にも触れています。

本番環境のやらかし
こんにちは、シニアソフトエンジニアのリドルです。このポッドキャストは、IT業界のいろんな話やリアルをお届けします。
今回は、本番のやらかしが人を成長させるという話について話そうと思います。
はい、皆さん、本番環境での作業でですね、やらかした経験はございますか?私はあります。
残念ながら、はい。本番環境でのやらかしって、まあ可能な限りゼロであるべきなんですけれども、
まあやっぱりですね、いろんな環境だったり、いろんなプロジェクトで仕事をしていると、どうしても発生してしまうことがあります。
でですね、もちろん発生させないことが大事なんですけれども、発生させないようにした上でも起きてしまうというところで、それが起きるとですね、
まあもちろん問題なんですけれども、まあ学びの機会というか、自分やチームが成長するきっかけにもなると思うので、詳しく説明していこうと思います。
そもそもですね、ちょっとヒヤリハットという言葉を皆さんご存知でしょうか?
ヒヤリハットというのはですね、別にIT業界だけの言葉じゃなくて、多分どっちかっていうと製造業とかそっち側のところから来ている単語だと思うんですけれども、
これはですね、重大な事故や災害にはいたらなかったけど、ヒヤリとした瞬間とか、ハッとしたような危険な状況や出来事を表す言葉となっています。
これ、あの廃院歴史の法則っていうのがありまして、重大事故の裏に潜む、
まあなんですかね、出来事っていうのがピラミッド形式で表せるんですけれども、例えば300件のヒヤリハットがあったら、
29件の軽傷を伴う災害があって、1件の重大災害があるっていうような、まあ
災害の、なんですかね、大きさに応じたピラミッドは作れるんですね。
1件、29件、300件。要するに、数多のヒヤリハットがあると、そのうちの1件は重大災害になり寄るみたいな感じですね。
なので、まあ軽微な危険とかを、ここでいう軽微な危険っていうのはヒヤリハットのことなんですけども、
それを共有とか分析することで、大きな事故を未然に防ぐことが目的となっているわけですね、この廃院歴史の法則といえば。
で、このヒヤリハットっていうのはですね、例えばソフトウェアの開発の例で言うと、本番のデータベースに誤って接続してしまう、
開発環境だと思ったけど繋げてしまったとか、あとは方法互換性を保たないといけないようなもので、
破壊的変更をプルリク内に混ぜてしまったとか、 あとは権限とか設定の誤りで
本番向けに開発の機能が出てしまったとか、 バックアップ取っているはずなのに、そのバックアップが正しいものではなかった、もしくは戻せない壊れたものだったとか、
そういったものがいろいろヒヤリハットとして存在します。 こういうのが組み合わさったりとか、
もう少し根が深くなったり、人のミスが加わったりすると、このヒヤリハットが重大な障害に繋がっていくという感じです。
本番障害ってね、実際やらかすとめちゃくちゃきついですよね。 私も結構やらかしたことで、ちょっと本番のサーバーを誤って落としてしまって、
再起動してしまって、その瞬間に結構障害というか影響が出てしまったりとか、 配布すべきじゃないバージョンのものを誤って配布してしまったとか、
影響ないだろうと思ってした変更が、なんかめちゃくちゃ重要なものだったとか、 なんかまあそういうのっていろいろありますし、影響範囲が読めないですよね。
あとですね、その時間に変更作業したのは自分だけなんで、絶対自分が原因じゃんってわかっちゃうっていうのも、
周りの人が別に何も言わなかったとしても、ちょっと自責の念に駆られたりしますし、 復旧作業も普段やらない作業だったりするので、人通じながらはいかなかったりしますし、
自分だけじゃなく周りの人にもいろいろ迷惑をかけるし、その後の振り返りとか、障害のインシデントレポートみたいなところもなかなか気が重いですよね。
こういったものをなるべく起こさないようにするためには、このヒアリハットというものを普段から大事にしておくことが大事です。
ヒヤリハットの理解
例えば、本番環境に誤ってつなげてしまったというのは、まあ起こりうるシチュエーションだと思うんですけれども、
こういったものをそもそも起こさないようにする仕組み作りっていう方が大事だったりします。
例えば、開発中ともかく運用に入ってからは、本番環境につなぐためには特別なフローを別途設けることで、
そもそもつなげようと思わない限りはつながらないような仕組みにしておくだったりだとか、
例えば、私の先ほどのサーバーを再起動してしまった例で言えば、一般ユーザーには再起動権限を与えずに、
ルートユーザーになるためには一定のワークフローの承認が必要になるといったようなガードレールというか防波堤みたいなものを用意しておくことで十分に回避可能でしたよね。
なので、そういったようなヒアリーハットを実際に遭遇した際にはですね、
まあよかった危ねえセーフって思うのはもちろんいいんですけれども、その後にそもそもこれなんで起きちゃうんだっけとか、
起きないようにするにはどうすればいいんだっけっていったことを考える必要があります。
ただですね、まあこういうヒアリーハットもともかくですね、そもそも世の中にどういうインシデントというか困りごとがあるんだろうって先に知っておいた方がいいじゃないですか。
だって自分がね、いきなり直面して、そこであたふたするよりも先になんか先人が踏んできたいろんな事故とかを知っておいた方が確実に防げるわけじゃないですか。
っていうところでおすすめの教材があります。それがKiitaにあるアドベントカレンダーなんですけれども、
本番環境などでやらかしちゃった人アドベントカレンダー2025というものがあります。こちらの
ポッドキャストの概要欄に貼っておきますが、こちらですね、結構前からやられている取り組みで、2019年ぐらいからやられているのかな、もっと前からのかな。
何かというとですね、本番環境で過去様々な作業が行われてきました。
やっぱりですね、いろんな事故が起きています。 それをですね、実際に起こした人、もしくはその近くにいた人がですね、
せきららになぜ起きてしまったのか、その結果どうなったのか、そしてどういうふうに対策をすべきだったのか、といったことについて本当に細かく書いてくれています。
読んでいるだけでもですね、自分がそのシチュエーションにいたら心臓がキュッとなる感じなんですけれども、それぐらいリアリティが強いので、
見出しだけでもですね、見ていただいて、もしくはタイトルだけでも見ていただいて、どういう状況でどういうことが起こり得るのか、そして自分がそれを起こさないためにはどうすべきなのか、といったところが学べると思いますので、
記事たくさんあるので、アドベントカレンダーはね、30日分で、何年分だ? 7年分ぐらいあるんで、200記事以上あると思いますので、
問題解決へのアプローチ
ぜひですね、自分の担当している領域だけでも見ていただけるといいんじゃないかなと思います。 はい、ということで今回はヒアリハットと、
本番環境での障害についてお話ししました。 本番環境での障害にですね、遭遇すると、
自分が関係してなくてもですね、原因を特定するとか、実際にサービスに影響を与えない形で早くリカバーするとか、いろんな総合スキルが試されるので、
積極的に関わっていくことを個人的にはお勧めしています。 もちろんですね、自分に関係ないからやらないっていうのも1個の選択肢であるんですけども、
こういうシチュエーションでね、やっぱり時間制限ある中で、ひりついた環境でやると、
なんかね、謎のスキルが伸びるんですよね。 度胸だったりだとか、問題を切り分ける力だったりだとか、そういうの結構ありますので、
ぜひですね、皆さんそういう経験まだされてないよっていう方はですね、運用の現場に飛び込んでみてですね、
障害解析というか、問題があったら首を突っ込むというムーブをしてみるといいんじゃないかなと思います。
このポッドキャストは、ハッシュタグイルアイキーで皆様からの感想やコメント募集しております。
また、チャンネルの概要欄にありますGoogleフォームのリンクからもご投稿可能です。 ありがとうございました。
09:00

コメント

スクロール