• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

高水準仮想化機能をもつAugmentedリアルビッグデータ利活用基盤の構築

研究課題

研究課題/領域番号 19H04114
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
審査区分 小区分60080:データベース関連
研究機関筑波大学

研究代表者

北川 博之  筑波大学, 計算科学研究センター, 教授 (00204876)

研究分担者 天笠 俊之  筑波大学, 計算科学研究センター, 教授 (70314531)
塩川 浩昭  筑波大学, 計算科学研究センター, 助教 (90775248)
早瀬 康裕  筑波大学, システム情報系, 助教 (40423090)
堀江 和正  筑波大学, 計算科学研究センター, 助教 (60817112)
研究期間 (年度) 2019-04-01 – 2023-03-31
研究課題ステータス 交付 (2020年度)
配分額 *注記
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2020年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2019年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
キーワードビッグデータ / 仮想化
研究開始時の研究の概要

ビッグデータ処理では,蓄積データやストリーム等の様々な大規模リアルデータに対して,結合・集約処理等に加え,機械学習等を用いた補完・推定処理等の多様なデータ処理を有機的に適用することが求められている.このような複合的データ処理を支援する上で,データ構造や処理の詳細を隠ぺいする仮想化技術が極めて重要である.本研究では,実世界から直接観測・取得されるリアルデータと,機械学習,メタデータ推論,シミュレーション等を適用することにより元データを大幅に拡充・補填するAugmentedデータをシームレスに統合する仮想化技術を確立し,それに立脚したAugmentedリアルビッグデータ利活用基盤の構築を目指す.

研究実績の概要

本研究が目指すAugmentedリアルビッグデータ利活用基盤は,センサ等で直接観測され,ファクトデータとしてデータベースに蓄積されたリアルデータに,機械学習,メタデータ推論,シミュレーション等の高度な拡充・補填処理によって得られるAugmentedデータをシームレスに統合したデータの処理・利活用を実現するシステムである.本研究課題では,Augmentedリアルビッグデータ利活用基盤の構築を目標に,研究期間中に(1) 高水準ビッグデータ処理記述,(2) データの曖昧性や整合性管理,(3) 全体処理効率化に関わる研究開発を行うことを目的としている.
初年度の2019年度は,以下のような基礎的な研究成果を得た.
(1) 高水準ビッグデータ処理記述:元データと機械学習等によるAugmentedデータ取得を含む複合的ビッグデータ分析プロセスを処理フローとして記述する手法を定式化した.さらに,シークエンスデータ中に内在する時間的パターンオカレンスをAugmentedデータとして抽出する処理やパターン階層への拡張を記述する手法を開発した.
(2) データの曖昧性や整合性管理:上記処理記述に基づく複合的分析プロセスにおける元データとAugmentedデータの関連性,整合性,トレーサビリティの維持を行う手法を開発した.
(3) 全体処理効率化:シークエンスデータ中に内在する時間的パターンオカレンスを抽出する処理やパターン階層を含むビッグデータ処理,ストリームに対する移動ウィンドウを用いた集約処理を効率化するための手法を開発し効果を評価した.また,機械学習等を用いて取得したAugmentedデータを含む処理結果から導出元データの所在を特定するためのアルゴリズムについても,処理効率化の検討や他の関連手法との比較等を行った.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

現在までの進捗状況については既に述べた通りであり,それに基づき上記の通り判定する.それぞれの進捗についての補足説明を以下に加える.
(1) 高水準ビッグデータ処理記述:元データと機械学習等によるAugmentedデータ取得を含む複合的ビッグデータ分析プロセスの記述は代数演算子をベースとしたものとしている.一方,時間的パターンオカレンスをAugmentedデータとして抽出する処理については,SQL/RPRを用いたものをベースとしているが,代数演算子を用いた記法との互換性の問題はない.現時点では,空間的なAugmentedデータの扱いがやや弱いので,今後はその部分についても検討を進める.
(2) データの曖昧性や整合性管理:トレーサビリティについては,機械学習等を用いて取得したAugmentedデータを含む処理結果が与えられた時,その導出元データの所在や導出の源となっているコンテンツの部分等を特定するためのアルゴリズムを開発し試験的な実装を行った.
(3) 全体処理効率化:シークエンスデータ中に内在する時間的パターンオカレンスを抽出する処理と機械学習等を用いて取得したAugmentedデータを含む処理結果から導出元データの所在を特定するためのアルゴリズムのいずれについても,PostgreSQLやSparkを用いた実験システムを用いて実証的に研究を推進している.

今後の研究の推進方策

今後は,これまでの研究成果をより発展されるための研究を行う.特に,以下の点に注力する.
(1) 高水準ビッグデータ処理記述:元データと機械学習等によるAugmentedデータ取得を含む複合的分析プロセスの記述力をより強化する.また,時間的パターン抽出を時空間パターンに拡張することについても検討を行う.さらに,高次元ビッグデータ分析のため処理記述についても検討する.
(2) データの曖昧性や整合性管理:元データとAugmentedデータの関連性,整合性,トレーサビリティ管理を実装したシステムを開発する.特に,従来の関連性,整合性,トレーサビリティでは,導出元データの所在の特定が主要な問題とされてきたが,機械学習等によるAugmentedデータが対象となる場合には,その所在のみではなく処理ロジック自体も含めて考える必要があることが明らかになってきたため,そのためのトレーサビリティの概念拡張についても検討する.
(3) 全体処理効率化:時間的パターンオカレンス抽出処理の最適化方式について,実際のビッグデータ処理システム上での有効性評価やコストモデルの構築を行う.また,元データとAugmentedデータの関連性,整合性,トレーサビリティ管理を実装したシステムに関してもより効率の良い処理方式について検討する.さらに,高次元ビッグデータ分析処理の効率化や,ターゲットとするビッグデータの効率的取得手法についても検討する.

報告書

(1件)
  • 2019 実績報告書

研究成果

(6件)

すべて 2020 2019

すべて 雑誌論文 学会発表

  • [雑誌論文] L-BiX: incremental sliding-window aggregation over data streams using linear bidirectional aggregating indexes2020

    • 著者名/発表者名
      Bou Savong、Kitagawa Hiroyuki、Amagasa Toshiyuki
    • 雑誌名

      Knowledge and Information Systems

      巻: -

    • DOI

      10.1007/s10115-020-01444-5

    • 関連する報告書
      2019 実績報告書
    • 査読あり
  • [雑誌論文] Efficient Row Pattern Matching Using Pattern Hierarchies for Sequence OLAP2019

    • 著者名/発表者名
      Nasu Yuya、Kitagawa Hiroyuki、Nakabasami Kosuke
    • 雑誌名

      Proc. 21st International Conference on Big Data Analytics and Knowledge Discovery (DaWak2019)

      巻: 11708 ページ: 89-104

    • DOI

      10.1007/978-3-030-27520-4_7

    • 関連する報告書
      2019 実績報告書
    • 査読あり
  • [雑誌論文] Optimization of Row Pattern Matching over Sequence Data in Spark SQL2019

    • 著者名/発表者名
      Nakabasami Kosuke、Kitagawa Hiroyuki、Nasu Yuya
    • 雑誌名

      Proc. 30th International Conference on Database and Expert Systems Applications (DEXA2019)

      巻: 11706 ページ: 3-17

    • DOI

      10.1007/978-3-030-27615-7_1

    • 関連する報告書
      2019 実績報告書
    • 査読あり
  • [学会発表] Topic-aware Scheme for Collecting Local Tweets2020

    • 著者名/発表者名
      Carina Miwa Yoshimura, Hiroyuki Kitagawa
    • 学会等名
      第12回データ工学と情報マネジメントに関するフォーラム (DEIM 2020)
    • 関連する報告書
      2019 実績報告書
  • [学会発表] コンテンツ解析を含む大規模データ分析処理に対するトレーサビリティ2020

    • 著者名/発表者名
      山田真也,天笠俊之,北川博之
    • 学会等名
      情報処理学会第82回全国大会 (IPSJ全国大会 2020)
    • 関連する報告書
      2019 実績報告書
  • [学会発表] Big Data Analytics and Management: Perspectives from Big Sequence Data Analysis and Research Projects in Japan2019

    • 著者名/発表者名
      Hiroyuki Kitagawa
    • 学会等名
      The 36th CCF National Database Conference (NDBC2019)
    • 関連する報告書
      2019 実績報告書
    • 国際共著/国際学会である / 招待講演

URL: 

公開日: 2019-04-18   更新日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi