研究課題/領域番号 |
15K17501
|
研究機関 | 福岡大学 |
研究代表者 |
江口 智士 福岡大学, 理学部, 助教 (40647202)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | データベース / 分散コンピューティング / クラウドコンピューティング / アルゴリズム / Hadoop / Hive |
研究実績の概要 |
平成27年度は、国内のバーチャル・プライベート・サーバ(VPS)のサービスを用いて、HadoopおよびHiveクラスタを構築し、その上でテスト・データを分散処理させる実験を行った。VPSは複数人で一つの物理的な計算機資源を共有する仕組みのため、処理性能が日時によって大きくばらつく可能性が考えられた。そこで2MASSカタログ(約200 GB)をクラスタに読み込ませ、そこからデータをランダムに抽出する性能試験を日時を変えて行ったところ、処理時間の分布は日時に依らずにほぼ一定であることがわかった。 通常のデータベースではデータ検索を高速化するためにインデックスを張るが、Hiveで同様なことを行うために、データをパーティションというディレクトリに分割して格納する。このパーティションを作成する際、データから何らかの特徴的な整数を生成する必要がある。平成27年度はこの整数生成アルゴリズムに、天球を等立体角に分割するHEALPixと、天球に外接する立方体を格子状に区切り、それらにモートン順序という規則で整数を割り当てる方法の2つを用い、どちらが高速かを比較する実験を行った。厳密にはHEALPixもモートン順序を採用しているが、球を等分割するという性質上三角関数の演算が複数入るため、3次元の単純なモートン順序よりも遅くなることが期待される。実験の結果、処理時間の分布の中央値で、3次元モートン順序の方が2秒ほど高速であることがわかった。ただし、この時間にはCPUでの処理の他にディスク・アクセスやネットワーク経由でのノード間のデータ転送などを含んでおり、どれが主に効いているのかまでは判明していない。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
現在レンタルしているVPSリソースは8つである。普通に計算機を購入するのと比較すると、VPS一つ一つの計算機資源はかなり制限されている。そのためパーティションの作成は手持ちのワークステーションで行い、そのイメージを専用サーバに置き、クラスタに吸い上げるという方法を採っている。このデータ吸い上げ時に一部のノードが原因不明のまま機能停止を起こしたり、あるいはデータが途中で欠落するという事態が何度か発生し、その度にデータ登録をやり直すということを行っている。また、パーティションの構造を変える度にデータを一から吸い上げるため、データ転送にかなりの時間を取られている。また、性能試験においても一部のノードが何故か応答しなくなるということも発生しており、その度に試験をやり直すことを行っている。その結果、当初の計画より2ヶ月ほど作業が遅れている。
|
今後の研究の推進方策 |
平成28年度の計画では、これまでのVPSサービスとは別にAmazon EC2を活用した大規模クラスタを作成する予定である。現在VPSで起こっているトラブル、特に性能試験中に一部ノードが応答しなくなる問題については、データの複製数を増やすことで対応できる可能性が高い。また、パーティションを入れ子にすることにより高速化できる可能性があるため、現在4パターンについて性能試験を実施している。この試験は5月上旬には完了する見込みである。この試験が完了し次第、段階的にノード数を増やしながらクラスタの構築を行い、最も効率的なパーティション構造でデータの登録と性能試験を行う予定である。また、現在手持ちのワークステーションで行っているパーティションの生成の作業をクラスタ上で直接行う手法の開発も同時に行うことを計画している。
|
次年度使用額が生じた理由 |
航空券を予定より安く調達できたため。
|
次年度使用額の使用計画 |
次年度繰越分については、平成28年度分のクラウドサービスの購入代金に充てがうことで、当初の予定より長時間性能試験を行う予定である。
|