研究課題/領域番号 |
23700036
|
研究機関 | 大阪大学 |
研究代表者 |
置田 真生 大阪大学, 情報科学研究科, 助教 (50563988)
|
キーワード | MapReduce / 並列分散処理 / 高性能計算 / PageRank |
研究概要 |
本研究の全体構想は、近年普及が進んでいる大規模分散並列処理フレームワークMapReduceについて、ミッションクリティカルシステムでの利用に耐えうる実装を提供することである。この構想のもと、本研究では次の2つの目的を遂行する。 1:Hadoopのマスタを多重化することによる耐故障性の向上 2:Hadoopにおいて複数のマスタに処理を分散することによる実行性能の向上 平成24年度は主に2の目的であるHadoopの性能向上に取り組んだ。当初の計画を変更し、アプリケーション実行中のデータの動き(データフロー)の改善による性能向上を目指した。 まず、データフローの改善に必要な情報を収集し、可視化するツールを作成した。このツールはアプリケーションの性能ボトルネックおよびその性能を向上させるためのパラメータを自動的に検出し、それらを直観的な図形式で表示する。このツールを利用することで、Hadoopに十分習熟していないユーザであっても少ない労力でHadoopアプリケーションの性能を改善できる。 次に、Hadoopにおける代表的なアプリケーションの1つであるPageRankについて、データフローの重複を削除し高速化する手法を開発した。この手法は既存の高速化手法と比較して最大1.57倍の高速化を達成した。この手法の意義は、PageRankに限らずHadoopを用いた一般的なグラフ処理の高速化を期待できる点にある。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の研究計画では、23年度はHadoopの耐故障性向上について遂行し、24年度以降はHadoopの高速化について遂行する予 定であった。 まず前者については、主に23年度に取り組み、その成果をまとめて24年度に国際ワークショップにおいて発表した。当該発表はHadoopの国内ベンダから関心を得ている。 次に後者については、2つの成果を達成している。1つは性能ボトルネックの可視化であり、24年度に国内口頭発表をしたところ、論文誌への推薦を受けて投稿を予定している。もう1つはHadoopの主要アプリケーションの1つであるPageRankの高速化であり、25年度の査読付き国内会議に採択され、優秀若手研究賞が内定している。
|
今後の研究の推進方策 |
25年度では、Hadoopの性能向上を目的に、引き続き以下の2つの課題に取り組む予定である。 (1)データフローの可視化:Hadoopではデータの分散および転送が暗黙的に行われるため、性能低下の原因となるデータフローの把握が難しい。そこで、実行の記録からデータフローを可視化するシステムを開発する。 (2)中間データ量の削減:Hadoopアプリケーションの性能低下を招く主な原因は、計算の途中で生成・転送する中間データである。そこで、中間データの重複に着目し、中間データのサイズを汎用的に削減できる仕組みを開発する。 まず(1)については、現在開発中のツールに加え、Hadoopの主な利用対象である大規模環境に適した可視化の研究に取り組む。 次に(2)については、24年度に開発したPageRankの高速化手法を基に、一般的なアプリケーションに適用出来るように拡張した汎用的な手法の開発を計画している。
|
次年度の研究費の使用計画 |
国際会議の開催場所が国内であったため、予定よりも旅費の使用額が少なく、次年度研究費が発生した。 研究計画には変更なく、前年度の研究費も含め、当初予定通りの計画を進めていく。 主に研究成果の発表に費用を使用する予定である。
|