EC2に障害発生!
もくじ
対応フロー
- まずサーバにログインしステータスを確認
サービスがダウンしていたら再起動させるなり一時復旧する。 - ログロテートされないようにログを確保して外部に複製する
- グラフを確認する
- ログを確認する
以下の場合にCloudwatchでモニタリングすることになる
- Muninなどで外部監視されていない場合
- 監視エージェントをインストールできない環境の場合
- 保守を始めたばかりのお客様との関係が間もない場合
グラフの読み取り
グラフで負荷が高くなっている
どのサービスで負荷が高くなっているのか?
→ログを確認する
データが障害時間中ない
Cloudwatchは仮想基盤が直接EC2から取得しているものなので、負荷もなくデータが消失している場合は仮想基盤の障害の可能性が高い。
- この場合はAWSサポートに確認するしかない
- EC2のSLAは99.99% = 年間で1時間程度ダウンタイムがあってもおかしくない基準