2011年8月25日木曜日

(献本御礼)日経コンピュータ2011年8月4日号

スズキです。

日経BP社様から「日経コンピュータ2011年8月4日号」を
献本いただきました。

他にも興味深い記事があるのですが、
やはりAWS関係の特集である

クラウドのトラブル(Amazonの事例にみる三つの予防策)

に目がいってしまいました。

この記事は、まだ記憶に新しいAWSの2011/04/21に
US東岸リージョンで発生した、大規模なトラブルの
詳細な説明が中心となっています。

最大4日間程度、部分的なサービスが停止していたのですが、
その障害内容を非常に詳しく紹介しています。そして、紹介する上でAWSの内部的な仕組みも
多々出てきます。ですのでAWSの内部的な仕組み(特にEBSまわり)を知るうえでも、
非常に参考になる記事です。

障害ばかりではなく、その対策に関しても下記3点を軸に言及されています。
  • ストレージ障害
  • 仮想マシン障害
  • DC設備障害
せっかくなので、この3点に関して、僕の考え(AWS限定)もいれた形で
まとめておこうと思います。


ストレージ障害

EBSの障害に関しては三つの対策かあると思います。
  • 定期的にスナップショット
  • 定期的にファイルバックアップ
  • ソフトウェアRAID(ミラーリング)
ファイルバックアップ先はS3やAWS外も考えることができます。

仮想マシン障害

EC2インスタンスの障害は冗長構成にしてELBで分散させる方式になるでしょう。
冗長構成はAZをまたがる形にしておけば、下記のDC設備障害にも
ある程度対応できるはずです。また、ELBが利用できなくても、
EIPは他のインスタンスへの割り当て直しができるので、障害を検知したら、
スタンバイ状態のEC2インスタンスにEIPを割り当て直す方法も可能だと思います。

DC設備障害

"DC=AZ"とした場合は、上記のような方法や、並列で動かせるシステムなら、
別のAZで複数起動することで対応できると思います。
また、AZ間は非常にシームレスになりように設計されているので、上記の構築も簡単です。

"DC=Region"とした場合は、Region間は完全に隔離されているので、
自分たちで仕組みを作成する必要があるでしょう。


実際問題、上記の中でもAWSの仕組みを利用して簡単にできるものは、
  • 定期的にスナップショット
  • 定期的に(S3へ)ファイルバックアップ
  • 複数AZで冗長構成を組みELBで分散
といった感じだと思います。

EBSのソフトウェアRAID(ミラーリング)は試しておかないと...
--------
http://www.suz-lab.com

0 コメント: