• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

複合型並列計算環境を活用した大規模不均質データの実時間分析基盤

Research Project

Project/Area Number 26280037
Research InstitutionUniversity of Tsukuba

Principal Investigator

北川 博之  筑波大学, システム情報系, 教授 (00204876)

Co-Investigator(Kenkyū-buntansha) 天笠 俊之  筑波大学, システム情報系, 准教授 (70314531)
早瀬 康裕  筑波大学, システム情報系, 助教 (40423090)
渡辺 知恵美  筑波大学, システム情報系, 助教 (20362832)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords大規模不均質データ / データ分析 / 複合型並列計算環境
Outline of Annual Research Achievements

大規模不均質データ分析フレームワークに関しては,代表的不均質データであるJSONを対象に,前年度に開発に着手したストア型JSONデータとストリーム型JSONデータの両者を扱えるデータ分析処理フロー記述を,ユーザ定義処理やタスク等を導入して拡張した.また,JSONデータに対する小粒度処理と大粒度処理が混在する処理記述を解析し実行可能なシステムのプロトタイプをビッグデータ基盤として普及しつつあるSparkに対応させた.また,XMLテキストデータに対するファセット検索フレームワークの被験者実験評価,不均質データ分析のための基盤技術として新たな推薦手法の開発を行った.
大粒度・小粒度分析処理の高速化に関しては,大粒度分析の並列処理と分散ストリーム処理に基づく小粒度処理に関する研究の高度化を進めた.前者に関しては,GPUによるクラスタリング並びに類似結合の高速化手法の改良を行なうと共に,新たにGPUを用いたグラフクラスタリング手法や類似画像検索手法を開発した.後者に関しては,XMLストリームに対するXpathとキーワードを組み合わせた検索手法の改良を行なうと共に,新たに複数のストリームを対象としたキーワード検索の効率的な手法を開発した.また,複数テキストストリームを高速に照合する手法について,照合精度,照合処理効率,更新処理効率の面から評価と改良を行った.さらに,差分処理を用いた高次元ストリームの連続的な外れ値検出手法の開発を行った.
また,大粒度・小粒度分析処理の融合に関しては,上記JSONデータを対象としたデータ分析フレームワークにおいて実時間制約や分析粒度要求等を加味したデータ処理記述の解析により,小粒度処理と大粒度処理を適切に切り分け,並列差分処理や中間データの維持管理をも考慮した実行プランを生成するための基本方式の開発に着手した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

データモデル・データ処理記述並びにシステムアーキテクチャについては,モデル記述力の強化・改善と多様なユーザ定義処理の組込みを行うことを当初計画としていた.これらについては,上記の通り,JSONを対象としたデータ分析処理フロー記述にユーザ定義処理やタスク等を導入すると共に,それに対応したプロトタイプをビッグデータ処理基盤として普及しつつあるSparkに対応して開発した.また,XMLテキストデータに対するファセット検索フレームワークについては,被験者実験を含む評価を行った.
大粒度分析の並列処理並びに分散ストリーム処理に基づく小粒度処理については,一層の高度化や新たな課題に取り組むことを当初計画としていた.これらについては,上記の通り,GPUを用いたクラスタリングや類似結合の高速化手法,XMLストリームに対するXpathとキーワードを組み合わせた検索手法,複数テキストストリームを高速に照合する手法等の改良に加え,新たに大規模グラフに対するGPUを用いたクラスタリング手法,GPUを用いた高速な類似画像検索手法,複数のストリームを対象としたキーワード検索等に取り組んだ.
さらに,今年度から取り組んだ並列差分処理や大粒度・小粒度分析処理の融合に関しては,上記JSONデータを対象としたデータ分析フレームワークにおいて,小粒度処理と大粒度処理を適切に切り分け,並列差分処理や中間データの維持管理をも考慮した実行プランを生成するための基本方式の開発に着手する等,おおむね当初の計画にしたがって研究を進展させた.
以上の進捗状況を踏まえ,おおむね順調に進展していると自己評価する.

Strategy for Future Research Activity

これまでに積み残しとなった機能要件や性能要件の実現に努めると共に,最終年度としての研究成果の取りまとめや今後の課題の洗い出しを含めた研究を実施する.
大規模不均質データ分析フレームワークに関しては,これまでに開発した,ストア型JSONデータとストリーム型JSONデータを対象とした多様なデータ分析処理フローを統合的に処理可能なシステムについて,既にプロトタイプを用いて一部実データを対象とした実験等も進めているが,さらにシステムの完成度を上げることを目標に研究を進める.
大粒度・小粒度分析処理の高速化に関しては,クラスタリングや結合以外の大規模データに対する基本データ処理として,グラフクラスタリングや類似画像検索等の処理や,マルチGPUの活用等について検討を進めることができたが,これまでに開発した手法の改良を図ると共に,さらなる可能性について検討を継続する.不均質データストリームの処理に関しては,複数ストリームに対するキーワード検索手法の完成度を上げると共に,より詳細な性能評価等を進める.
大粒度・小粒度分析処理の融合に関しては,上記JSONデータを対象としたデータ分析フレームワークにおいて大粒度分析と小粒度分析を適切に融合させるための手法の高度化を図ると共に,提案手法の有意性を実証実験により検証する他,Spark上で動作する大粒度・小粒度分析融合型大規模不均質データ処理基盤としての完成度を上げる.特に,実時間制約や分析粒度要求等を加味して,小粒度処理と大粒度処理を適切に切り分け,並列差分処理や中間データの維持管理をも考慮した最適な実行プランを生成できることを目指した研究を推進する.また,より高度な複合型並列計算環境に対応した大規模不均質データ処理を目指した今後の研究課題の整理も進める.

Causes of Carryover

当初プロトタイプ開発用サーバの購入を予定していたが,実データを用いたプロトタイプシステムの検証実験を早期に開始することが望ましいとの判断のもと,実験用データセットの購入を進めることとした.そのため,予定していた物品費予算と執行額に差が生じ,次年度使用額が発生した.

Expenditure Plan for Carryover Budget

実証実験用サーバの購入を次年度予定している.また,最終年度であることから,成果発表等に関わる旅費やその他の費目の額がこれまで以上にかかる見通しである.次年度使用額はこれらを充当する予定である.

Research Products

(13 results)

All 2016 2015

All Journal Article Presentation

  • [Journal Article] オンラインニュースに関連するツイートのリアルタイムな収集2016

    • Author(s)
      大西 誠, 北川 博之
    • Journal Title

      日本データベース学会和文論文誌

      Volume: Vol.14 ,No.4 Pages: Article No.15

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Facet-value Extraction Scheme from Textual Contents in XML Data2015

    • Author(s)
      Takahiro Komamizu, Toshiyuki Amagasa, and Hiroyuki Kitagawa
    • Journal Title

      International Journal of Web Information Systems (IJWIS)

      Volume: Vol. 11 Pages: 270-290

    • DOI

      http://dx.doi.org/10.1108/IJWIS-04-2015-0012

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Path-based Keyword Search over XML Streams2015

    • Author(s)
      Savong Bou, Toshiyuki Amagasa, and Hiroyuki Kitagawa
    • Journal Title

      International Journal of Web Information Systems (IJWIS)

      Volume: Vol. 11 Pages: 347-369

    • DOI

      http://dx.doi.org/10.1108/IJWIS-04-2015-0013

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] Collaborative Filtering with Implicit Feedbacks by Discounting Positive Feedbacks2016

    • Author(s)
      Kent Kawai, Hiroyuki Kitagawa
    • Organizer
      2nd IEEE International Conference on Multimedia Big Data (IEEE BigMM 2016),
    • Place of Presentation
      Howard Civil Service International House(台湾・台北)
    • Year and Date
      2016-04-20 – 2016-04-22
    • Int'l Joint Research
  • [Presentation] GPUを用いた類似画像検索の高速化2016

    • Author(s)
      草村 優太,小澤 佑介,天笠 俊之,北川 博之
    • Organizer
      情報処理学会第78回全国大会 (IPSJ全国大会 2016)
    • Place of Presentation
      慶應義塾大学矢上キャンパス(神奈川県横浜市)
    • Year and Date
      2016-03-10 – 2016-03-12
  • [Presentation] GPUを用いたラベル伝搬法によるグラフクラスタリングの高速化2016

    • Author(s)
      小澤 佑介,天笠 俊之,北川 博之
    • Organizer
      第8回データ工学と情報マネジメントに関するフォーラム (DEIM 2016)
    • Place of Presentation
      ヒルトン福岡シーホーク(福岡県福岡市)
    • Year and Date
      2016-02-29 – 2016-03-02
  • [Presentation] Efficient Keyword Search over Relational Data Streams2016

    • Author(s)
      Savong Bou, Toshiyuki Amagasa and Hiroyuki Kitagawa
    • Organizer
      第8回データ工学と情報マネジメントに関するフォーラム (DEIM 2016)
    • Place of Presentation
      ヒルトン福岡シーホーク(福岡県福岡市)
    • Year and Date
      2016-02-29 – 2016-03-02
  • [Presentation] オンラインニュースとツイートのリアルタイムマッチング手法2016

    • Author(s)
      大西 誠,山口 祐人,北川 博之
    • Organizer
      第8回データ工学と情報マネジメントに関するフォーラム (DEIM 2016)
    • Place of Presentation
      ヒルトン福岡シーホーク(福岡県福岡市)
    • Year and Date
      2016-02-29 – 2016-03-02
  • [Presentation] 高水準言語で記述可能なストリーム処理とバッチ処理の統合フレームワーク2016

    • Author(s)
      長 裕敏,塩川 浩昭, 北川 博之
    • Organizer
      第8回データ工学と情報マネジメントに関するフォーラム (DEIM 2016)
    • Place of Presentation
      ヒルトン福岡シーホーク(福岡県福岡市)
    • Year and Date
      2016-02-29 – 2016-03-02
  • [Presentation] Real-Time Relevance Matching of News and Tweets2015

    • Author(s)
      Sei Onishi, Yuto Yamaguchi, and Hiroyuki Kitagawa
    • Organizer
      23th International Conference on Cooperative Information Systems (CoopIS 2015)
    • Place of Presentation
      Hotel Aldemar Amilia Mare Resort (ギリシャ・ロードス)
    • Year and Date
      2015-10-28 – 2015-10-30
    • Int'l Joint Research
  • [Presentation] Parallel Canopy Clustering on GPUs2015

    • Author(s)
      Yusuke Kozawa, Fumitaka Hayashi, Toshiyuki Amagasa, and Hiroyuki Kitagawa
    • Organizer
      26th International Conference on Database and Expert Systems Applications (DEXA 2015)
    • Place of Presentation
      Universitat Politecnica de Valencia (スペイン・バレンシア)
    • Year and Date
      2015-09-01 – 2015-09-04
    • Int'l Joint Research
  • [Presentation] GPU Acceleration of Set Similarity Joins2015

    • Author(s)
      Mateus S. H. Cruz, Yusuke Kozawa, Toshiyuki Amagasa, and Hiroyuki Kitagawa
    • Organizer
      26th International Conference on Database and Expert Systems Applications (DEXA 2015)
    • Place of Presentation
      Universitat Politecnica de Valencia (スペイン・バレンシア)
    • Year and Date
      2015-09-01 – 2015-09-04
    • Int'l Joint Research
  • [Presentation] Continuous Angle-based Outlier Detection on High-dimensional Data Streams2015

    • Author(s)
      Hao Ye, Hiroyuki Kitagawa, and Jun Xiao
    • Organizer
      the 19th International Database Engineering & Applications Symposium (IDEAS 2015)
    • Place of Presentation
      慶應義塾大学日吉キャンパス(神奈川県横浜市)
    • Year and Date
      2015-07-13 – 2015-07-15
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi