IT・システム全般

AWSの大規模障害から中小企業経営者が学ぶべきこと

クラウドの代表格であるアマゾンウェブサービス(AWS)で2019年8月23日昼頃から18時頃まで、大規模な障害が発生しました。

世の中のサービスの多くは、AWS・Azure(マイクロソフト)・GCP(グーグル)上のどれかで動いています。その筆頭とも言えるAWSの大規模障害によって、AWS上で展開していた多くのサービスが影響を受けました。

「普段使っているツールが使えなくなってしまった」

という方も、一定数いたのではないかと思います。
このことから、中小企業経営者は何を学ぶべきでしょうか?

<スポンサードリンク>



「だからクラウドは危ない」は的外れ

この障害によって、予想通りネット上には批判のコメントが溢れています。

「だからクラウドは危ないんだ」
「自社で設備保有(オンプレミス)の方が安心」

しかし、これらのコメントは全く的外れです。

どんなシステムであったとしても、障害は発生します。
それはクラウドであろうと、自社保有(オンプレミス)であっても同様です。

ちなみに今回の障害原因は冷房管理システムの障害によって機器が過熱して物理障害に発展したようです。一般的に機器の物理障害を復旧させるには丸1日程度は普通に掛かります

しかし今回のAWSの障害では、それを5時間程度で復旧させています。
常にインフラを監視・運用する専門家が居るクラウドだから5時間で済んだと言えるのです。自社保有だったら、2~3日戻らなくても不思議ではありません。

大切なことは、このようなシステム停止のリスクを見込んだ上で、対応するかどうかの判断を事前に行っておくことです。それはクラウドだろうと自社保有であろうと変わりません。

後述しますが、今回のAWS障害の影響を受けたサービスと、そうでないサービスが存在します。影響を受けなかったサービスは、冗長設計をしっかりと行っていました。

<スポンサードリンク>



コスト最優先の企業・サービスがあぶり出された

今回のAWS障害によって、メジャーなサービスや大企業のサービスなどが影響を受けました。

障害の影響を受けた企業

例えば、ニュースアプリ「SmartNews」は障害の影響を受けて利用できない時間帯があったようです。ただし、だからと言って悪いとは言い切れません。
システム障害が起きたらニュースは読めなくなっても良い、と割り切ったサービス設計をしていたのかもしれません。

他にもジーユー・ユニクロ・ローソンアプリなども影響を受けた様子です。
同様にリスクを踏まえた上で、コストをかけてまで冗長設計をしなかったのかもしれません。

ちなみに、クラウド会計ソフト「freee」やスマホ決済の「PayPay」も止まりました。ただ、これらはサービス内容的に、止まってはいけなかったのでは、と思います。会計ソフトや決済は、いつでも使えることが求められるサービスだからです。

システムを停止させなかった企業

一方で重要と判断されるシステムを停止させなかった企業があります。

例えばスシロー。社内向けシステムは影響を受けたようですが、社外向けのシステムは動作し続けたようです。

このようにサービス・システムによってリスク許容度は変わります。
丸1日なら止まっても良いものがある一方で、3時間の停止が許容できないものもあります。
リスク許容度に応じて、最適な対応をしていた企業は、今回の障害でも困らなかったのです。

繰り返しになりますが、リスク対応をしていなかったからと言って、一概に悪いとは言えません。しかし、そのサービス内容を考慮して、止まってはならないサービスなのであれば、そう対応すべきでした。

今回の障害は、インフラを甘く見た・コストをケチったサービス・企業が浮き彫りになった形と言えるでしょう。サービスのSLA(Service Level Agreement:サービスの品質保証)や利用規約を見ると、そのサービス提供者の姿勢が見えてくるかもしれません。

BCP(事業継続計画)とリスク対応

システムに限らず、事業継続を阻害するリスクを洗い出し、リスク許容度に対して対応方針を決めて運用していく計画のことをBCP(事業継続計画)と言います。貴社はリスクの洗い出しは済んでいますでしょうか?

現実問題、多くの中小企業はBCPを策定できていません。

  • 大規模な災害(地震・火災・津波・台風など)で自社オフィスが被害を被ったら?
  • 電車が何らかの理由で動かなくなったらどうするか?
  • 最も重要な生産設備が故障したらどうするか?
  • 社員が内部機密を盗んで逃げだしたらどうするか?
  • 売上の大半を依存している最大顧客が倒産したら?

考えたくもない話ばかりだと思いますが、経営者として無視してはいけません。

事業継続を阻むリスクをできる限り洗い出します。
その上で、どんな影響を受けるのかを判断します。

例えば東日本大震災のときには、多くの製造業が工場の閉鎖を余儀なくされました。言うまでもなく、その分の生産能力がゼロになってしまいます。被害を受けた工場には、生産途中だった在庫が数多く残されていたかもしれません。

このような工場の停止は、何日までなら耐えられますか?

  • 自社工場が何か所あるのか?
  • 各工場の役割
  • 事業運営に必要なキャッシュの保有額(何ヶ月分、売上がゼロでも耐えられるか)

などによって、全く答えは変わってきます。

今回のAWS障害も同じように考えて、対策を打ちます。
確かに今回の障害は大規模でしたが、過去にも同じような時間止まった障害は何度かあります。ということは、リスクとして検討する時間は十分にあったのです。

経営者としては

  • 他社のサービスを選択する上での判断基準として
  • 自社が提供するサービスや事業継続上のリスクを検討する材料として

今回の障害を見つめてみてはいかがでしょうか。

まとめ
  • AWSの大規模障害に対し、「クラウドだから危ない」は的外れ
  • どんなシステムにも障害はある。準備していたか、そうでなかったか
  • 今回の障害から、経営者はBCP策定の考え方を学ぼう

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
メルマガ『経営は100種競技!』を毎日配信しています。
マーケティングやITを身につけたい。
ビジネスを楽しみたい。
変化・成長したいというビジネスパーソンにお読みいただいています。