もくじ
事象
処理遅延が続いた後に処理が出来ず、サービス不稼働の事態に至った
原因
再起動したら消える暫定のコンフィグのまま本番稼動し、再起動した結果、暫定のコンフィグが消えて障害に至った。
恒久対応
- メモリに入った暫定設定を永続ファイルに忘れずに書き込む
- 設定後のダブルチェック
- 本番運用前に動作テスト
>通信できなくなった理由は運用管理サーバーが外部接続サーバーとの通信に必要な「経路の情報」(三橋執行役員)を失ったからだ。みずほ証券は定期メンテナンスのため運用管理サーバーを2カ月に1回の頻度で再起動している。6月23~24日の週末に再起動したところ、経路情報が消えたという。
>みずほ証券は18年5月上旬、それまで使っていた外部接続サーバーが老朽化してきたため、入れ替え用の新たなサーバーを追加し、2系統での運用を始めた。53社分の外部接続機能を段階的に旧サーバーから新サーバーに移行する計画だった。
ここで新サーバーについて、「暫定的な経路を設定するコマンドで設定してしまった」(同)。この設定だと運用管理サーバーの再起動で経路情報が消えてしまう。新しい外部接続サーバーは二重化していたが、同じ設定方法を採っていたため、再起動で本番機と待機機とも情報が消えた。
本来は再起動しても設定が消えない「正式なやり方」(同)で設定する必要があった。だが、53社の接続機能を全て移行するまで新サーバーは暫定的なものであると誤って認識し、暫定で設定するコマンドを使ったという。
>設定作業は関連会社に委託したが、三橋執行役員は「当社が確認した作業内容に沿って作業してもらった」と話し、障害の責任は自社にあるとの認識を示した。「チェックの甘さがあった」と反省し、今後、漏れがないチェック体制を確立していくとしている。
https://www.nikkei.com/article/DGXMZO33562260Q8A730C1000000/