研究課題/領域番号 |
23700036
|
研究機関 | 大阪大学 |
研究代表者 |
置田 真生 大阪大学, 情報科学研究科, 助教 (50563988)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | MapReduce / 並列分散処理 / 耐故障性 / 高性能計算 |
研究概要 |
本研究の全体構想は、近年普及が進んでいる大規模分散並列処理フレームワークMapReduceの実装の1つであるHadoopについて、ミッションクリティカルシステムでの利用に耐えうる実装を提供することである。この構想のもと、本研究では次の2つの目的を遂行する。1、Hadoopのマスタを多重化することによる耐故障性の向上2、Hadoopにおいて複数のマスタに処理を分散することによる実行性能の向上平成23年度は、主に1の目的に取り組んだ。その成果として、マスタの故障から自動的に復帰するソフトウェアシステムを実現した。このシステムは、マスタのバックアップデータを定期的に作成する。故障発生時にはそれを自動的に検知し、バックアップデータを元にマスタを復元する。これらの操作は自動的に、かつアプリケーションの処理と並行して行われるため、ユーザが故障の有無を意識する必要はない。また元来のシステムと比較して、実行時間の増大は高々2%であり、耐故障性を効率的に実現している。このシステムの特徴は、ハードウェアの障害をソフトウェアでリカバリーできる点にある。また2について調査検討を行った。結果、性能向上のためには、マスタ処理の分散ではなく、アプリケーション実行中のデータの動き(データフロー)の改善が、より効果的であると結論づけた。24年度以降は計画を変更し、新たに次の3つの施策((1)データフローの可視化、(2)外部データベースとの連携および(3)中間データ量の削減)に取り組む予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の研究計画では、23年度はマスタの耐故障性向上について遂行し、24年度以降はマスタの多重化による高速化について遂行する予定であった。まず前者については、研究成果を論文にまとめ、現在国際会議に投稿中である。当初の予定(23年度内の発表)から少し遅れているが、24年度内には国際会議にて発表する見込みである。次に後者については、高速化という目的はそのままに、具体的な実施項目を変更した。24年度以降は、(1)データフローの可視化、(2)外部データベースとの連携および(3)中間データ量の削減に取り組む。このうち、(1)と(2)は23年度から先行着手しており、システムの設計は完了している。24年度内の口頭発表を目指す。(3)については、調査を完了し、基本的なアイデアを決定した段階である。
|
今後の研究の推進方策 |
24年度以降の研究計画について、目的はそのままに、具体的な項目を変更した。24年度以降は次の3つを遂行する。(1)データフローの可視化:Hadoopではデータの分散および転送が暗黙的に行われるため、性能低下の原因となるデータフローの把握が難しい。そこで、実行の記録からデータフローを可視化するシステムを開発する。(2)外部データベースとの連携:Hadoopアプリケーションが利用する全てのデータを分散ファイルシステムで管理すると、そのコストが大きい。そこで、一部のデータを外部データベースに保管し、Hadoopと効率的に連携できるシステムを開発する。 (3)中間データ量の削減:Hadoopアプリケーションの性能低下を招く主な原因は、計算の途中で生成・転送する中間データである。そこで、中間データ内の類似性に着目し、中間データのサイズを汎用的に削減できる仕組みを開発する。24年度では、(1)および(2)について成果をまとめた口頭発表を計画している。
|
次年度の研究費の使用計画 |
当初予定していたクラウドサービスの利用を取りやめたため、23年度の研究費に未使用額が生じた。研究計画には変更なく、前年度の研究費も含め、当初予定通りの計画を進めていく。
|