ANAシステム障害サーバー4台ダウン、今回・過去の障害原因は?
スポンサーリンク
スポンサーリンク
3月22日、ANAの国内線で、搭乗手続きや予約販売ができなくなるシステム障害が
発生しました。
今年2月24日、2008年、2007年にもシステム障害が発生しています。
今回と過去のシステム障害について原因を追ってみました。
= 目 次 =
3月22日 システム障害の原因
経過
全日本空輸で搭乗手続きや予約販売を行うシステムに障害が発生しました。
国内線の搭乗手続きができなくなり、午後9時の時点で146便が欠航、
391便が遅延し、計約7万1900人に影響しました。
空港の搭乗手続き機能は午前11時30分ごろ、予約販売系システムは午後8時10分
ごろ復旧しました。
原因
ANAによると、システムを構成する4台のサーバーのうち、
午前3時44分に1台が停止。
その後午前8時22分までに他の3台も相次いで停止。
1台を再起動するも2台目が再起動できず、1台のみ稼働させ、
搭乗手続きなどに使う「空港系システム」を午前11時30分ごろ復旧させました。
原因は、4台のDBサーバーをつなぐ米シスコシステムズ製イーサネットスイッチ
(ネットワーク中継機器)の故障。
スイッチは、2重化されており、主系に故障が発生した場合は副系に切り替わるしくみ
ですが、故障が認知されず、主系が「不安定ながらも動作し続ける状態」と
なりました。
この状態では、DBサーバー間のデータ同期処理は異常終了。
DBサーバーは、データの整合性を壊さないようにするために自動停止しました。
スイッチは米シスコシステムズ製「Catalyst 4948E」。
ANA広報によれば、
「2010年6月の発売開始以降、世界で4万3000台、うち日本で8700台を販売している
が、今回の不具合は初めての事象と聞いている」
とのこと。
参考:ITpro
出典:ITpro
2月24日 システム障害の原因
搭乗手続きができなくなって18便が遅延し、約3千人に影響がありました。
サーバーの外部監視システムの変更作業ミスがシステム障害の原因でした。
2008年9月14日 システム障害の原因
全国51空港にある全日空と提携4社の1,556台の端末が認証エラーにより
起動できなくなりました。
原因は端末認証管理サーバーに設定されていた暗号化認証の有効期限切れ。
2005年の端末認証管理サーバーを導入。
当初は暗号化認証機能を使わずに運用していました。
2007年9月に運用を変更、暗号化認証機能を使うことにしました。
この時点で暗号化認証の有効期限は残り1年で、端末認証管理サーバーの担当者と
端末設計の担当者の双方ともそれを認識していました。
しかし、端末設計の担当者は端末認証管理サーバーの担当者が更新するだろうと
思い込んでいたまま、正しく伝わっておらず、有効期限の更新は行われませんでした。
コミュニケーションエラーによる人為的ミスが原因と言えます。
2007年5月27日 システム障害の原因
旅客の予約・搭乗手続きや手荷物管理をするチェックイン・システムで障害が発生。
130便が欠航し306便が遅延、合計で7万9300人に影響が出ました。
発端はチェックイン端末をつなぐためのネットワーク機器内のメモリーの物理的故障。
これにより2系統あるうち1系統のスイッチの通信が断続的に途絶え始めた。
さらに、連携するネットワーク機器の能力不足、プログラムのバグ、人為的な設定ミス
が複合的に重なったことが原因でした。
まとめ
全日空と同じ予約・発券システムを使っている航空会社数社にも欠航や大幅な遅延が
発生しました。
コンピュータ・システムによって、高度に効率化、合理化されたサービスが
空気のように提供される現代社会。
こういった障害が発生すると、あらためてその影響力の大きさを痛感します。
ANAでは2013年に大規模なシステム更新を行い、「人間はミスをするもの」との
前提のもとに設計した上で、監視体制や教育も強化したとのことですが、
競争の激しい航空業界で、コンピュータ・システムに大規模化、複雑化、高度化の
要求が絶えず突きつけられるであろうことは想像に難くありません。
システム障害はこれまでにも大きな問題となってきましたが、官公庁や大企業など
へのサイバー攻撃の脅威も拡大しつつあるようです。
これを機に、より強固で安全なシステムに進化していただくことを期待します。
関連記事: