システム障害発生時の初動対応を自動化することにより、障害対応のレスポンス大幅向上
【現状と課題】
監視ツールでサーバ約5,000台、ネットワーク機器約5,000台の監視を実施しており障害発生時はメールで通知。
メール通知後は「人手」で内容を確認し、対応手順の選定を行う。その後、障害内容をSlack(チャット)のグループに投稿し、担当者へ共有することで、投稿内容をもとに対象機器に対し調査・復旧のアクションを実施。
つまり「人手」がかかる部分は、①アラートメールの確認、振り分け②チャット投稿③担当者の確認④担当者による調査・復旧を行うの4点である。
【RSによる業務自動化】
障害発生時のアラートメールはロボシュタイン(RS)に集約、メールの内容で対応可否のフィルタリングを行い、対応が必要なものだけをSlackに自動投稿。その後、担当者は投稿内容をもとに実行したいコマンドなどを同チャットグループに投稿することによりRSが起動し、対象機器へのコマンド実行を実施。チャット通知は全自動でRSが実施し、担当者はチャットを起点に障害状況の把握・対応を実施できる体制を構築
つまりロボシュタインを導入することで、担当者が行う業務はチャットを確認し、コマンド実行指示を行うのみとなります。
結果として、複雑な運用業務を省略化・自動化することで、「人は人にしかできない業務」へとシフトすることができます。
緊急度の高い障害発生時の電話連絡を完全自動化。夜間帯の常駐人員をゼロに!
【現状と課題】
365日24時間でサービスの監視を行っており、緊急度の高い障害が発生した場合は、「人手」でエンジニアにエスカレーション電話を実施。
担当が複数人おり、1人目につながらない場合は他の担当に連絡する、若しくはつながるまで電話を行っていたため、手間がかかっていた。
また、休日・夜間帯については監視を外部に委託していたため、電話連絡に一定のコストがかかっていた
【RSによる業務自動化】
障害発生時のアラートメールをロボシュタイン(RS)が受信し、緊急度が高い内容の障害であれば、自動電話通報サービスと連携し、担当者に自動電話を実施。
1人目が一定時間応答しない場合は輪番で次の担当者に電話が回るため、人が介在せず、エスカレーション電話の完全自動化を実現
つまり緊急度の高い障害が発生した際に、これまで「人手」で担当に電話を行っていたのを、ロボシュタインを起点に自動電話通報サービスと連携することで、担当者に自動電話を実施し、これまでかかっていた「人手」を解決し、かつ外部に委託していた「コスト」も削減することができる。