研究課題/領域番号 |
26280037
|
研究機関 | 筑波大学 |
研究代表者 |
北川 博之 筑波大学, システム情報系, 教授 (00204876)
|
研究分担者 |
天笠 俊之 筑波大学, システム情報系, 准教授 (70314531)
早瀬 康裕 筑波大学, システム情報系, 助教 (40423090)
渡辺 知恵美 筑波大学, システム情報系, 助教 (20362832)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 大規模不均質データ / データ分析 / 複合型並列計算環境 |
研究実績の概要 |
大規模不均質データ分析フレームワークに関しては,代表的不均質データであるJSONを対象に,前年度に開発に着手したストア型JSONデータとストリーム型JSONデータの両者を扱えるデータ分析処理フロー記述を,ユーザ定義処理やタスク等を導入して拡張した.また,JSONデータに対する小粒度処理と大粒度処理が混在する処理記述を解析し実行可能なシステムのプロトタイプをビッグデータ基盤として普及しつつあるSparkに対応させた.また,XMLテキストデータに対するファセット検索フレームワークの被験者実験評価,不均質データ分析のための基盤技術として新たな推薦手法の開発を行った. 大粒度・小粒度分析処理の高速化に関しては,大粒度分析の並列処理と分散ストリーム処理に基づく小粒度処理に関する研究の高度化を進めた.前者に関しては,GPUによるクラスタリング並びに類似結合の高速化手法の改良を行なうと共に,新たにGPUを用いたグラフクラスタリング手法や類似画像検索手法を開発した.後者に関しては,XMLストリームに対するXpathとキーワードを組み合わせた検索手法の改良を行なうと共に,新たに複数のストリームを対象としたキーワード検索の効率的な手法を開発した.また,複数テキストストリームを高速に照合する手法について,照合精度,照合処理効率,更新処理効率の面から評価と改良を行った.さらに,差分処理を用いた高次元ストリームの連続的な外れ値検出手法の開発を行った. また,大粒度・小粒度分析処理の融合に関しては,上記JSONデータを対象としたデータ分析フレームワークにおいて実時間制約や分析粒度要求等を加味したデータ処理記述の解析により,小粒度処理と大粒度処理を適切に切り分け,並列差分処理や中間データの維持管理をも考慮した実行プランを生成するための基本方式の開発に着手した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
データモデル・データ処理記述並びにシステムアーキテクチャについては,モデル記述力の強化・改善と多様なユーザ定義処理の組込みを行うことを当初計画としていた.これらについては,上記の通り,JSONを対象としたデータ分析処理フロー記述にユーザ定義処理やタスク等を導入すると共に,それに対応したプロトタイプをビッグデータ処理基盤として普及しつつあるSparkに対応して開発した.また,XMLテキストデータに対するファセット検索フレームワークについては,被験者実験を含む評価を行った. 大粒度分析の並列処理並びに分散ストリーム処理に基づく小粒度処理については,一層の高度化や新たな課題に取り組むことを当初計画としていた.これらについては,上記の通り,GPUを用いたクラスタリングや類似結合の高速化手法,XMLストリームに対するXpathとキーワードを組み合わせた検索手法,複数テキストストリームを高速に照合する手法等の改良に加え,新たに大規模グラフに対するGPUを用いたクラスタリング手法,GPUを用いた高速な類似画像検索手法,複数のストリームを対象としたキーワード検索等に取り組んだ. さらに,今年度から取り組んだ並列差分処理や大粒度・小粒度分析処理の融合に関しては,上記JSONデータを対象としたデータ分析フレームワークにおいて,小粒度処理と大粒度処理を適切に切り分け,並列差分処理や中間データの維持管理をも考慮した実行プランを生成するための基本方式の開発に着手する等,おおむね当初の計画にしたがって研究を進展させた. 以上の進捗状況を踏まえ,おおむね順調に進展していると自己評価する.
|
今後の研究の推進方策 |
これまでに積み残しとなった機能要件や性能要件の実現に努めると共に,最終年度としての研究成果の取りまとめや今後の課題の洗い出しを含めた研究を実施する. 大規模不均質データ分析フレームワークに関しては,これまでに開発した,ストア型JSONデータとストリーム型JSONデータを対象とした多様なデータ分析処理フローを統合的に処理可能なシステムについて,既にプロトタイプを用いて一部実データを対象とした実験等も進めているが,さらにシステムの完成度を上げることを目標に研究を進める. 大粒度・小粒度分析処理の高速化に関しては,クラスタリングや結合以外の大規模データに対する基本データ処理として,グラフクラスタリングや類似画像検索等の処理や,マルチGPUの活用等について検討を進めることができたが,これまでに開発した手法の改良を図ると共に,さらなる可能性について検討を継続する.不均質データストリームの処理に関しては,複数ストリームに対するキーワード検索手法の完成度を上げると共に,より詳細な性能評価等を進める. 大粒度・小粒度分析処理の融合に関しては,上記JSONデータを対象としたデータ分析フレームワークにおいて大粒度分析と小粒度分析を適切に融合させるための手法の高度化を図ると共に,提案手法の有意性を実証実験により検証する他,Spark上で動作する大粒度・小粒度分析融合型大規模不均質データ処理基盤としての完成度を上げる.特に,実時間制約や分析粒度要求等を加味して,小粒度処理と大粒度処理を適切に切り分け,並列差分処理や中間データの維持管理をも考慮した最適な実行プランを生成できることを目指した研究を推進する.また,より高度な複合型並列計算環境に対応した大規模不均質データ処理を目指した今後の研究課題の整理も進める.
|
次年度使用額が生じた理由 |
当初プロトタイプ開発用サーバの購入を予定していたが,実データを用いたプロトタイプシステムの検証実験を早期に開始することが望ましいとの判断のもと,実験用データセットの購入を進めることとした.そのため,予定していた物品費予算と執行額に差が生じ,次年度使用額が発生した.
|
次年度使用額の使用計画 |
実証実験用サーバの購入を次年度予定している.また,最終年度であることから,成果発表等に関わる旅費やその他の費目の額がこれまで以上にかかる見通しである.次年度使用額はこれらを充当する予定である.
|