2014 Fiscal Year Annual Research Report
複合型並列計算環境を活用した大規模不均質データの実時間分析基盤
Project/Area Number |
26280037
|
Research Institution | University of Tsukuba |
Principal Investigator |
北川 博之 筑波大学, システム情報系, 教授 (00204876)
|
Co-Investigator(Kenkyū-buntansha) |
天笠 俊之 筑波大学, システム情報系, 准教授 (70314531)
早瀬 康裕 筑波大学, システム情報系, 助教 (40423090)
渡辺 知恵美 筑波大学, システム情報系, 助教 (20362832)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 大規模不均質データ / データ分析 / 複合型並列計算環境 |
Outline of Annual Research Achievements |
本研究は,複合型高性能並列計算機を含む計算機環境を活用した大規模不均質データの実時間分析基盤の実現を目的としている. 今年度は主に基盤となる技術の研究開発を中心に研究を実施した.大規模不均質データ分析フレームワークに関する研究項目として,データモデル・データ処理記述とシステムアーキテクチャに関する研究を実施した.前者に関しては,不均質データの代表としてJSONを取り上げ,ストア型JSONデータとストリーム型JSONデータを対象とした多様なデータ分析処理フローを記述可能なデータ処理記述方式とその処理系を開発した.また,長いテキストを要素内容とするXMLデータを取り上げ,ファセット検索に基づく不均質データフレームワークの開発を行った.後者に関しては,上記のJSONデータに対する小粒度処理と大粒度処理が混在する処理記述を解析し,実際に記述された分析処理を実行可能なシステムのプロトタイプを構築した. 大粒度・小粒度分析処理の高速化に関する研究項目として,大粒度分析の並列処理と分散ストリーム処理に基づく小粒度処理に関する研究を実施した.前者に関しては,クラスタリングと類似照合をとりあげ,GPUを用いた高速化の手法を開発した.具体的には,Canopyクラスタリングと類似結合をGPUにより高速化する手法を開発した.また,JSONデータに対する大粒度処理の並列化にも取り組んだ.後者に関しては,不均質データストリームの例であるXMLストリームを対象に,Xpathで指定された構造に関する条件と,キーワードで指定された内容に関する条件を併用した,XMLストリーム分析の手法等を開発した.また,複数のテキストストリームを高速に照合するシステムの開発を行った.具体例として,Web上のオンラインニュースとTwitterストリームを照合し,各ニュースに対する関連ツイートを獲得するシステムの開発を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データモデル・データ処理記述については,JSON等を用いた不均質データのモデル化,多様なデータ分析処理フローを記述可能なデータ処理記述系,小粒度処理と大粒度処理が混在する分析処理を統一的に記述するための手法に関して,基本設計を行うことを当初計画としていた.また,システムアーキテクチャに関しては,上記のデータモデルやデータ処理記述を実装するシステムアーキテクチャ,大規模不均質データ処理機構のあり方に関して,基本設計を行うことを当初計画としていた.上記に記載の通り,これらに関しては基本設計に留まらず,プロトタイプシステムを構築し稼働させるまで到達することができた.また,これらに加えて,長いテキストを要素内容とするXMLデータという別の不均質データを取り上げ,ファセット検索に基づく不均質データ分析フレームワークの開発を行うことができた.これらの点で,当初の計画以上の研究の進展があったということができる. 大粒度分析の並列処理については,複合型並列計算環境を利用した不均質データの並列分析アルゴリズム,自動並列化の手法,タスク分割手法,GPUを用いた高速化等を対象に,基本設計等を行うことを当初計画としていた.これについては,Canopyクラスタリングや類似結合をGPUにより高速化する手法を開発し,実験によりこの効果を確認した.また,JSONデータに対する大粒度処理の並列化にも取り組んだ.分散ストリーム処理に基づく小粒度処理については,不均質データストリーム処理,自動分散ストリーム処理手法等に関して,基本設計等を行うことを当初計画としていた.今年度は集中型のストリーム処理に注力し,XMLストリームに対する高度な分析手法や複数テキストストリームの高速照合システム等の開発を行った. 以上の進捗状況を踏まえ,おおむね順調に進展していると自己評価する.
|
Strategy for Future Research Activity |
今年度の積み残しとなった機能要件や性能要件の実現に向けた研究を進めると共に,並列差分処理方式や大粒度・小粒度分析処理の融合に関する実現方式の検討を本格化する. 大規模不均質データ分析フレームワークに関しては,今年度開発した,ストア型JSONデータとストリーム型JSONデータを対象とした多様なデータ分析処理フローを統合的に処理可能なシステムについて,実データを対象とした適用が可能なレベルにシステムの完成度を上げることを目標に研究を進める.また,今年度開発したテキストを含む不均質データファセット検索に基づくデータ分析フレームワークをはじめ,より多様な不均質データの分析に有効なフレームワークについても併せて検討を進める. 大粒度・小粒度分析処理の高速化に関しては,今年度本格的な検討が行えなかったクラスタリングや結合以外の大規模データに対する基本データ処理をGPUにより高速化することを目指すと共に,マルチGPUの活用やそのためのタスク分割についても検討を行う.不均質データストリームの処理に関しては,キーワードを用いた検索手法の高度化を進める他,複数テキストストリームの高速照合システムについては,照合対象の2つのストリームデータが頻繁に更新される環境の中で照合処理を高速に行うための,索引機構やアルゴリズムの開発を進める.さらに,差分計算を取り入れた大規模データ分析手法についても検討を行うと共に,上記JSONデータを対象としたデータ分析フレームワークにおいて大粒度分析と小粒度分析を適切に融合させるための手法の開発を進め,プロトタイプ上でその基本性能の評価を行う.また,より高度な並列計算環境におけるシステムの実現を目指した開発を進める.
|
Causes of Carryover |
当初,類似結合のGPUによる高速化や複数テキストストリームの高速照合システムに関する研究の国際会議における成果発表を予定していたが,これらの成果発表が国内会議になったことで,旅費の支出額が予定より下回った.また,大学院学生の非常勤職員雇用を予定していたが,研究進捗の関係で業務量が減少したため予定額を下回った. 以上が,次年度使用額が生じた主な理由である.
|
Expenditure Plan for Carryover Budget |
類似結合のGPUによる高速化や複数テキストストリームの高速照合システムに関する研究の国際会議での成果発表を今年度予定している.また,大学院学生の非常勤職員雇用を予定している.次年度使用額はこれらに充当する予定である.
|
Research Products
(7 results)