色々なサービスの障害報告から、
- 障害原因
- 一時対応
- 永久対応(再発防止策)
- ユーザへの補償、信頼回復術
学びます(۶•̀ᴗ•́)۶
2017年10月12日に発生した接続障害と、それに伴う緊急メンテナンスについてご案内致します。
■経緯:
2017年10月12日21時40分頃、AWS(クラウドサーバー)提供側に通信障害が発生し、AWS管理下にあるデータベース・サーバとゲームサーバーとの通信が途絶するといった事象が発生、それに伴いブレストサーバーの再構築を行なうため緊急メンテナンスを実施した
■時間軸:
- 21:40 AWSに障害が発生、ゲームサーバーとデータベースサーバーとの通信にエラーが発生
- 21:45 エンジニアが接続障害の問題特定と緊急対応を開始
- 21:48 ゲームサーバーとデータベースサーバーとの接続が断たれ、データベースへの接続が不可能になっていたことが判明。
- 21:53 スペアのデータベースサーバーで接続を試みたものの、ゲームサーバーとデータベースのサーバー間のネットワークが完全停止していたため接続の復旧に失敗
- 22:03 エラーの大量発生によりゲームサーバーの作動が不安定となった。ユーザーデータを守るため、サーバーを緊急停止し、緊急メンテナンスに移行
- 22:10 精査により、AWS内部の通信環境に問題があり、ゲームサーバーとデータベースへのネットワークが完全に遮断さた。当該サーバー自体の復旧を断念し、新たにサーバーを開設及び再構築を始める。
- 04:30 サーバーの再構築及び緊急メンテナスが終了し、サービスを再開
■本障害の影響について:
ブレストサーバー全体におけるデータの整合性を確保するため、やむを得ないと判断してサーバーサーバーを停止した。
この為、21:40からメンテナンス開始までの22:03までのデータが一部失われる可能性がある。
■本件に関するお詫びと補償(10/13 4:36追記)
当障害発生期間中にゲームをログインしていたブレストサーバーのユーザーの集計完了後、
- ① ブレストサーバーのユーザー全員に【燃料1000】【資金4500】【キューブ2】を配布
- ② 当障害発生期間中にゲームをログインしていたブレストサーバーのユーザー全員に【ダイヤ1000】を配布
また、当障害発生時間中にダイヤ・貿易許可証を購入したユーザーについては、集計後に購入の反映を実施
※障害発生期間中に獲得したアイテムやキャラについては、ゲームログ自体が正しくサーバーに記録されないため、誠に申し訳ありませんが、個別アイテムやキャラの補填に関しては物理的に不可能な状況です。
■再発の防止策について
- ①サーバー状況の監視強化
サーバーが想定外の事態で停止した場合、自動で他のサーバーを停止させ、データエラー・ロールバックの発生を防ぐ- ②ゲームサーバーとデータサーバーの連携強化
サーバーのデータ同期の間隔を短くし、同期のずれを減らす。またエラーデータが発生した場合、ゲームサーバーの応答動作を停止し、復旧用のログをローカルサーバーのに自動保存する
チーム内で改めて意識を高め、不測な事態に遭遇した際の反応速度と責任意識を向上させ、
同じ事態への対処能力向上に精一杯力尽くす所存です。
重ねてご迷惑をおかけしまして、誠に大変申し訳ございませんでした。
「アズールレーン」運営チーム