2020/11/15発生したDNS起因のネットワーク障害について

清水@システム管理チームです。

表題の通り2020/11/15の2時から19時ごろまで、DNS起因のネットワーク障害が発生していました。

申し訳ありませんでした。

症状

2020/11/15の計画停電に備えて学科システムを停止したところ、学科ドメイン(ie.u-ryukyu.ac.jp)のDNSが引けなくなる自体が発生しました。

これに伴ってweb サービスのほぼすべて(学科webサイト、 mattermost, gitlab…)や、学科ドメインを参照していたサービス(Gmailなど)が使用不可能になっていました。

原因

学科ドメインのDNSサーバーは学科システム上に構築しており、システム更新前は工学部のある学科システムが停止した場合に備えて、さくらクラウドの方で冗長化したDNSサーバー(セカンダリサーバー)を起動していました。

今回のシステム更新でさくらクラウド側のシステムが停止しており、本日までDNSのセカンダリサーバーが存在しない状況になっていました。

そのため工学部のサーバー室で稼働している学科システム上のDNSサーバーを停止したところ、ie.u-ryukyu.ac.jpの権威サーバーが無い状況になってしまい、DNSが停止しました。

シス管側で状況を把握した後に、さくらの専用サーバー上に新たにDNSサーバーを稼働させるところまでは行いましたが、大本の総合情報センターのDNSへ新しく作成したDNSサーバーのIPアドレスの登録が間に合わず、この様な自体となってしまいました。

今後について

現在近い計画停電の予定は把握しておりませんが、シス管側で早急にDNSサーバーのセカンダリの作成とセンターと協力しDNSの冗長化を行います。

今回の障害でDNSの重要性を学習しました。 教訓にして同じミスが発生しないように努めていきます。