2016 Fiscal Year Research-status Report
超巨大天文データからなる全天アーカイブをHadoopにより超低費用で実現する研究
Project/Area Number |
15K17501
|
Research Institution | Fukuoka University |
Principal Investigator |
江口 智士 福岡大学, 理学部, 助教 (40647202)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | データベース / 分散コンピューティング / クラウドコンピューティング / アルゴリズム / Hadoop / Hive |
Outline of Annual Research Achievements |
平成28年度は、Hiveのデータベース・エンジンにデフォルトのYARNを使用した場合とTezを使用した場合とでベンチマークを行い、それぞれのエンジンの特性を調べた。平成27年度では、分散処理フレームワークHaoopをバーチャル・プライベート・サーバ(VPS)を複数組み合わせたクラスタを一から構築し、その上でYARNを動作させていたが、その後の調査でTezを使用した方が効率的であることが判明したため、Tezをメインに使用するようにVPSを構築しなおした。この作業は比較的面倒な作業であるため、Tezが予め有効になっているAmazon EMRのインスタンス4つを用いてクラスタを構築し、ベンチマークを行った。その結果、EMRはYARNを用いたVPSクラスタより約3倍高速であることが判明した。いっぽうで、EMRのインスタンス数を増やしても、最大4つのノードしか処理に関係しないことも判明した。Hiveではデータをディレクトリ形式のパーティションで管理するが、このパーティション・サイズが検索クエリに対して大きすぎることによるものと考えられる。この問題については現在解決策を模索中である。新しく構築したVPSでは、データベースの内部形式にORCFileという比較的新しいフォーマット使用する実験も行った。ORCFileではZLIBを用いたデータ圧縮も同時に行われるためノード間のデータ通信量が減少し、検索時間の短縮が期待できる。195 GBの星のカタログをこの形式に変更したところ、データ検索の時間を単にTezを用いた場合の数10秒のオーダーから2秒前後まで短縮することができた。従って、「1 TBのデータを10秒程度で処理する」当初の研究目標の実現に向けて、確実に前進することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
データベースのエンジンにTezを、内部形式にORCFileを使用することで、200 GBのデータを2秒程度で処理する目処が立った。しかし現在の方法では、データを比較的大きな括りでパーティショニングするためパーティション内のデータがあるノードにかたまってしまい、並列性が低下してしまっている。また、ORCFileはHiveのデフォルトの形式(空白またはタブ文字で区切られたテキスト・ファイル)とは大きく異なるため、当初考えていたアルゴリズムをそのまま適用しても性能向上が期待できない可能性が高い。1 TBのデータをほんの数秒で処理できるようになるまでには、まだまだ時間がかかりそうである(しかし、解決策のアイディアは既にいくつかある)。
|
Strategy for Future Research Activity |
VPSによるHadoopクラスタは管理に手間がかかる上、日のオーダーでは処理能力の変動は小さいものの、月のオーダーで見た場合は比較的大きく性能が変動する。それと比べると、EMRは簡単にパフォーマンスが出るクラスタを簡単に構築でき、性能も安定している。そこでVPSのインスタンスについては、今年(平成29年)7月が契約更新月であるが、更新はせずにEMR一本に絞って性能の最適化を行う。処理が4ノード以上に分散しないことについては、データベースのテーブル構造の見直しや、各パーティション内のデータを強制的に分割するなどして、並列度が上がるように最適化を行う。
|
Causes of Carryover |
本研究の核心である分散処理フレームワーク「Hadoop」とその上で動作するデータベースシステム「Hive」はオープンソースで活発に開発が行われており、研究計画時には利用実績のほとんどなかった機能が広く使われるようになってきた。そのような機能を活用することで、本研究で作成するソフトウェアの大幅な性能向上が期待できるため、設計変更を行った。それに伴い、それら機能を有効にした場合のHiveの挙動を調べる必要が出てきたが、いきなりクラウドを用いたクラスタを構築してしまうと素の挙動がわからなくなってしまうため、手持ちのワークステーションを用いて調査を行った。その結果、時間貸しであるAmazon EMRを使用する時間が予定よりも大幅に減り、繰越金が発生した。
|
Expenditure Plan for Carryover Budget |
本研究は今年度(平成29年度)が最終年度であり、研究を完成させるために今年度Amazon EMRを頻繁に、しかもこれまで以上に長時間使用する必要がある。したがって、昨年度からの繰越金はEMRのインスタンスを購入するために全額使用する予定である。
|