2011年7月8日金曜日

"アマゾン HPC NIGHT"に参加しました

スズキです。

下記のイベントに参加してきました。
アマゾン HPC NIGHT
このイベントは、AWS環境でのHPC(High Perfrmance Computing)をテーマとしており、
AmazonのCTO自らの講演、エバンジェリストのデモ、そして実際の利用者による
パネルでシスカッションなどがプログラムになっています。

特に基調講演の「HPC at your fingertips (すぐに利用可能なHPC)」
については、いろいろと印象残ったことが多かったのでメモしておきます。

AmazonのCTO、ヴァーナー・ボーガス博士自らの講演です。

まずは下記の書籍が紹介されました。
The Fourth Paradigm: Data-intensive Scientific Discovery

ここでキーワードとなる"Data-intensive (Computing)"が
登場するのですが、これは、
膨大な一次データ、二次データ、の存在と、遍在する計算能力の存在を大前提にした、
科学研究手法。(コチラより引用)
というもので、引用からもクラウド(AWS)と親和性の高さがうかがえます。

データの扱いは下記の5つのフェーズで整理され、それぞれのフェーズで役立つ
AWSプロダクト/サービスを紹介してくれました。
COLLECT, STORE, ORGANIZE, ANALYZE, SHARE
【COLLECT】
データの収集、つまりAWSへのアップロードの部分で、下記が紹介されました。
  • FREE INBOUND BANDWIDTH
    つまりAWSへのアップロードは無料です!(最近無料になりました!)
  • AWS Import/Export
    AmazonにHD送ってデータをアップロードしてもらうサービスです。
    最近S3だけでなくEBSにもアップロードできるようになりました!
【STORE】
データの保存部分では、次のプロダクトが紹介されました。
(適材適所で使い分けましょう!)
  • S3
    99.999999999%の耐久性と99.99% の可用性のWebストレージ
  • SimpleDB
    可用性、拡張性、柔軟性の高い、非リレーショナル型データストア(KVS)です。
  • EBS
    EC2インスタンスのための永続性のあるストレージ(HDDやSDDのようなもの)
  • RDS
    データベース(MySQL/Oracle)専用の仮想サーバ(インスタンス)です。
【ORGANIZE】
データの組織化に関しては、下記のフェーズを紹介されました。
Control, Correct, Validate, Enrich
まあ、制御して、正して、検証して、より構造的にする、といった感じでしょうか?
(Controlの部分が実際何をするのかは理解できてませんでした...)
【ANALYZE】
下記三つの大規模計算を紹介し、それに適したAWSプロダクトを紹介されました。
  • High-throughput computing
    多くのコンピューターリソースを利用し、長い時間かけて処理を完了させる。
    AWSならEC2のCPUやメモリの多いインスタンスで複数台で!
  • Data Intensive Computing
    大規模なデータを並列に処理する。AWSならEMRで!
  • Parallel computing
    従来型の並列処理を行う。"Cluster Compute Instance"や"Cluster GPU Instance"で!
【SHARE】
最後はデータの共有ですが、公開して利用できるようにしましょう、
といったところでしょか?

最後にヴァーナー・ボーガス博士のコメントで印象に残ったものです。
リージョンからデータはもちろんのことメタデータもでない。
(セキュリティに関してリージョン内で完全にデータは閉じている)
お気に入りのAWSサービスはS3。
(最初のサービスだし、とにかくシンプル!)

後は、よろしく... @bond_honey
--------
http://www.suz-lab.com

0 コメント: