1. TOP
  2. エンスタマガジン
  3. 学習
  4. Azureの障害で実際にあったトラブルとは?マイクロソフトから補償を受けることはできる?

Azureの障害で実際にあったトラブルとは?マイクロソフトから補償を受けることはできる?


はじめまして、エンジニアスタイル編集部です!

コラムページでは、ITフリーランスに向けてお役立ち情報を発信します。Twitterではホットな案件を紹介してまいりますので、ぜひフォローをお願いいたします!
本記事が、皆様の参考になれば幸いです。

経験がまだ少ない方にもわかりやすく説明するために、初歩的な内容も記載しております。記事も長いので、実務経験豊富な方は、ぜひ目次から関心のある項目を選択してください。

エンジニアスタイルは、最高単価390万円、国内最大級のITフリーランス・副業案件検索サービスです。Microsoft Azureのフリーランス・副業案件一覧を以下からご覧いただけますのであわせてご確認ください。

過去にあったAzureの障害事例

本記事では、Azureで今までに発生した障害について注目し、もしもの時に備えてどのように対応すべきなのか、どのような方法で事前に対策しておくべきなのか、補償は受けられるのか等について詳しく紹介していきます。

2014年11月19日 – Azure Storageの障害

この障害では、Azure Storageサービスにおいてデータの可用性に問題が生じました。

具体的には、Azureストレージの前面プロキシ層に障害が発生し、複数のAzureリージョンにわたってサービスの低下が報告されました。

障害の影響を受けたユーザーは、データへのアクセスや操作に一時的な問題が発生し、ストレージへのデータの書き込みや読み取りが遅延したり、エラーが発生したりなどの問題がありました。

また、一部のリージョンでは一時的な断続性が発生し、サービスへのアクセスが一時的に不可能となることもありました。

障害の原因は前面プロキシ層の特定のコンポーネントでのパフォーマンスの問題によるものでしたが、Microsoftはこの障害に対して迅速に対応し、影響を受けたサービスの正常性を回復させるための作業を行いました。

2017年3月31日 – Azure Storageの障害

この障害では、Azure Storageサービスの一部においてデータの一時的な書き込みの遅延が発生しました。

一部のAzureリージョンにおけるAzure Storageへのデータの書き込み操作に遅延が生じたため、ユーザーはデータの更新や書き込み操作においての問題がありました。

障害の原因は、特定のAzureリージョンにおけるAzure Storageのリソースのパフォーマンスの問題でしたが、障害を引き起こしたリソースのスケーリングと調整を行い、Azure Storageサービスのパフォーマンスを正常に回復させました。

2021年3月16日 – Azure Active Directory障害

この障害では、Azure ADにおいて認証とアクセス制御に関する問題が発生し、一部のユーザーはAzure ADへのサインインやアプリケーションへのアクセスが困難になるなどの状況に陥りました。

また、管理者はAzureポータルやAzure AD管理ポータルにアクセスできないという報告もありました。

この障害は、Azure ADのバックエンドシステムの一部で発生した障害によるものでしたが、問題の具体的な原因は公式には明らかにされていません。

障害解消までの間、Microsoftは障害の状況や修復状況に関する情報を顧客に提供し、その後エンジニアチームは障害が影響を及ぼしているシステムコンポーネントを特定して、正常な状態に回復させるための作業を行いました。

Azureの障害をいち早く認識するにはどうすれば良いか

Azureの障害をいち早く認識するためには、Azure Statusページを定期的にチェックし、サービスの状態や障害情報を確認する必要があります。

Azure Monitorを使用してリソースやアプリケーションのパフォーマンスを監視する方法も考えられます。異常を検知するアラートと通知を設定し、監視ダッシュボードやログ分析を活用して障害の徴候や異常な動作を素早く発見します。

また、Microsoftの公式ブログやソーシャルメディア、コミュニティフォーラムなどで障害情報やアップデート情報を収集することも重要だと言えます。

監視システムによるアラート

監視システムによるアラートは、Azureのリソースやアプリケーションの状態を監視し、異常な挙動や障害をいち早く検知するための方法です。以下に具体的な例を示します。

例えば、Azure Monitorを使用して仮想マシンのパフォーマンスを監視する場合、CPU使用率がしきい値を超えた場合にアラートを発行するように設定します。

  • Azure Portalにログインし、Azure Monitorのメニューに移動します。
  • メトリックエクスプローラーを開き、監視したい仮想マシンを選択します。
  • メトリックエクスプローラーで、CPU使用率などの監視したいメトリックを選択します。
  • CPU使用率が90%を超えた場合にアラートを発行するようなアラートルールを作成します。
  • アラートルールには通知の送信先や重要度などを設定できるため、メール、SMS、Webhookなどさまざまな通知チャネルを選択することができます。

このような設定を行うことで、定期的に仮想マシンのパフォーマンスを監視し、即座にアラートを検知できるようになり、異常な負荷や障害が発生した際に迅速に適切な対策を講じることができます。

また、監視システムによるアラートでは、他のリソースやアプリケーションに対しても同様の手法を適用することができます。

例えば、データベースの接続数、ストレージの使用量、ネットワークのスループットなどを監視し、異常な状態が検知された場合にアラートを受け取ることができます。

監視システムによるアラートは、自動化された監視と通知の仕組みを提供するため、Azureの障害を迅速かつ効果的に認識するための重要な手段といえるでしょう。

SNS

Azureの障害情報をいち早く収集する方法として、Twitterなどのソーシャルネットワーキングサービス(SNS)を活用することがあります。以下に具体的な例を示します。

Twitterの検索機能を利用する

Twitterでは、ハッシュタグやキーワードを使用して特定のトピックを検索することができます。Azureの障害情報を収集するためには、関連するハッシュタグやキーワード(例: #Azure, #AzureOutage)を検索し、最新のツイートや情報を確認します。公式アカウントや信頼性の高いアカウントからの情報を優先的にチェックすることが重要です。

Azure公式アカウントやサービスアカウントをフォローする

Azureや関連サービスの公式アカウント、およびサービスのアカウントをフォローすることで、障害情報やアップデートを直接受け取ることができます。これにより、公式な情報源からの最新の情報をリアルタイムで入手することができます。

関連コミュニティや専門家をフォローする

Azureに関するコミュニティや専門家のアカウントをフォローすることで、障害情報や対応策に関する情報を収集することができます。これにより、コミュニティや専門家の知見を得ることができ、障害に対する理解や対策の改善に役立ちます。

リアルタイム情報を受け取るための通知設定

TwitterなどのSNSプラットフォームでは、特定のアカウントやキーワードに関する通知設定を行うことができます。障害情報に関連するアカウントやキーワードに対して通知を受け取るように設定することで、リアルタイムでの情報収集を可能にします。

TwitterなどのSNSを活用することで、障害情報を迅速に収集し、アクションを起こすことができますが、公式な情報源や信頼性の高いアカウントに焦点を当て、確認された情報に基づいて行動することが重要だといえます。

ユーザーからの問い合わせ

Azureの障害をいち早く認識する方法の一つとして、「ユーザーからの問い合わせ」が挙げられます。

ユーザーは障害が発生した際にその問題を認識し、サポートやお問い合わせのフォームなどを通じて、問題を報告することができます。

この問い合わせを受けた企業のサポート担当者は、ユーザーからの報告を基にして、Azure上で何らかの障害が発生している可能性を認識することができます。

そしてサポート担当者は、問題の内容や発生している状況を詳しくユーザーに尋ねることで情報を収集することができます。

これらのお問い合わせのやりとりが一般ユーザーに公開されている場合、該当でない別のユーザーも一見して障害内容と対策を知ることができます。

Azureの障害を検知した後の対応で必要なこととは

万が一、Azureに障害が発生したときには、クラウド側に原因があるかどうかの究明を行う必要があります。

その際、OS、ミドルウェア(サーバーを動かすソフトウェア)、システム(お客様のアプリケーション)のいずれに原因があるのかを切り分けていきます。

クラウド(Azure)側(OS、ミドルウェア、システム)の問題がトラブルの原因となっていれば、サーバーの再起動やOS、ミドルウェアのアップデート、脆弱性対策などといった対策を速やかに実施し、システム側にトラブルの原因がある場合には、お客様のシステム担当者へご連絡し、調査を開始するなどの対策を講じる必要があります。

Microsoftのサポートサービスを活用する

障害を検知したら、まずはMicrosoftのサポートチームに連絡します。Azureサポートプランに登録している場合は、Webサイト上の「サポート」セクションから問題を報告することができます。

サポートチームとのコミュニケーションを通じて、障害の原因を特定するための情報を提供しますが、これには障害発生時のエラーメッセージやログファイルの提供、問題を再現する手順の提供などが含まれます。

サポートチームは問題解決のために最善の方法を提案し、必要な場合はエスカレーションを行って問題の解決を支援します。

社内で対応チーム・担当を決める

障害発生時には、対応チームや担当者を迅速に決定します。これにより、問題解決の責任が明確化され、効率的な対応が可能となります。

対応チームは、障害の範囲や影響度を評価し、必要な対策を計画する必要があります。たとえば、Azureの特定のリージョンやリソースグループに障害が限定されている場合、その範囲の復旧措置や代替手段を検討します。

その後、障害対応の進捗状況を適切に管理し、関係者への報告やコミュニケーションを行います。問題が解決されるまでの間、継続的な情報提供と更新を行い、関係者の理解と協力を得ることが重要です。

社内関係者・ユーザーへのお知らせ

障害が発生した場合、社内関係者や関係するユーザーに対して迅速にお知らせすることが重要です。これにより、情報共有や対応のスムーズな進行が可能となります。

お知らせの方法としては、以下のような手段があります

  • 社内メールやチャットツールを使用して関係者に通知する。
  • 公式なコミュニケーションチャネル(Webサイト、ポータル、ブログ、SNSなど)を活用して、障害の状況や進捗状況を公開する。

お知らせには、障害の影響範囲や予想される復旧時間、対応策についての情報を含めることが重要です。関係者やユーザーに影響がある場合は、可能な限り具体的な指示や代替手段を提供します。

Azureで障害が起きた際のトラブルを想定して対応をドキュメントにしておく

障害が発生した際にスムーズな対応を行うために、事前にトラブルシューティング手順や対応ガイドラインをドキュメント化しておくことも大切です。

ドキュメントには、以下のような情報を含めると良いでしょう。

  • よくある障害の種類や原因の一覧
  • 障害が発生した際の手順やチェックリスト
  • 障害の特定や解決に役立つツールやコマンドの使用方法
  • Microsoftサポートへの連絡方法やエスカレーション手順

ドキュメントは、関係者や対応チームに共有され、障害発生時に迅速かつ正確な対応を行うためのリファレンスとなります。定期的に更新し、最新の情報を反映させることが重要です。

Azureでトラブルが起きて損害が生じた場合、マイクロソフトから補償を受けることはできるのか

結論からいうと、補償は受けられません。

保証の免責については以下のように記述されています。

(中略)

本アプリケーションを使用することで生じるリスクは、お客様が負うものとします。アプリケーション パブリッシャー、マイクロソフト (マイクロソフトがアプリケーション パブリッシャーではない場合)、本アプリケーションの頒布に利用されるネットワークの無線通信事業者、ならびに、それぞれの関連会社、ベンダー、エージェント、およびサプライヤー (以下「関係当事者」といいます) は、本アプリケーションに基づくかまたは関連する明示的な保証、または条件を一切負いません。本アプリケーションの品質、安全性、快適性、および性能に関するリスクはすべてお客様が負うものとします。本アプリケーションに欠陥があることが証明された場合、お客様は必要なすべての修正または修理の費用をすべて負担するものとします。お客様は、法域や国によっては、本ライセンス条項によって変更することのできないその他の消費者としての権利を有する場合があります。お客様の地域の法令によって認められる限りにおいて、関係当事者は、商品性、特定目的に対する適合性、安全性、快適性、権利侵害の不存在などの黙示の保証または条件については一切責任を負いません。

利用者は、Azureを使用する際には自身の責任で適切な対策やバックアップを行い、データの保護や冗長性の確保などを考慮する必要があります。

利用者がAzureでトラブルや損害を経験した場合、マイクロソフトは一定のサポートやトラブルシューティングの支援を提供することがありますが、補償や損害賠償を受けることはできないことに留意する必要があるといえるでしょう。

まとめ

いかがでしたでしょうか?

どのサービスにおいても障害が全く発生しないサービスはありません。

とすれば、いつか起きる障害に備えて事前にマニュアル化させたり、対策を講じる手立てを考えておくことは非常に重要と言えます。

特にITにおいてはバックアップの重要性は言わずもがなですが、障害への対策不備によってユーザーの信頼を失わないように、通常時から意識しておくことが大切です。

SNSシェア
CATEGORY
学習
新規会員登録エージェントとの初面談1社につきAmazonギフト券3,000円分全員にプレゼント!

あわせて読みたい関連記事


おすすめ&新着求人・案件


各種SNSで情報を
発信中フリーランスで働くエンジニアに役立つ情報を発信しています。
フリーランス求人・案件の選び方や注意点、単価を上げるコツなどをエンジニアスタイルの編集部が発信しています。
フォロー・友達に追加していただき最新の情報をGETしてください。