• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

Research on Augmented Real Big Data Processing Frameworks with High-level Virtualization Facilities

Research Project

Project/Area Number 19H04114
Research InstitutionUniversity of Tsukuba

Principal Investigator

北川 博之  筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)

Co-Investigator(Kenkyū-buntansha) 天笠 俊之  筑波大学, 計算科学研究センター, 教授 (70314531)
塩川 浩昭  筑波大学, 計算科学研究センター, 准教授 (90775248)
早瀬 康裕  筑波大学, システム情報系, 助教 (40423090)
堀江 和正  筑波大学, 計算科学研究センター, 助教 (60817112)
Project Period (FY) 2019-04-01 – 2023-03-31
Keywordsビッグデータ / 仮想化
Outline of Annual Research Achievements

本研究が目指すAugmentedリアルビッグデータ利活用基盤は,センサ等で直接観測され,ファクトデータとしてデータベースに蓄積されたリアルデータに,機械学習,メタデータ推論,シミュレーション等の高度な拡充・補填処理によって得られるAugmentedデータをシームレスに統合したデータの処理・利活用を実現するシステムである.本研究課題では,Augmentedリアルビッグデータ利活用基盤の構築を目標に,研究期間中に(1) 高水準ビッグデータ処理記述,(2) データの曖昧性や整合性管理,(3) 全体処理効率化に関わる研究開発を行うことを目的としている.
2020年度は,以下のような研究成果を得た.
(1) 高水準ビッグデータ処理記述:機械学習や時空間データ処理等に関わるAugmentedデータ処理を含む複合的分析プロセスを記述できる手法の具体化を進め,リレーショナルデータベース上のシステムとして実装できることを確認した.また,シークエンスデータの時間的パターンオカレンスをAugmentedデータとして取得する処理についても,同様にリレーショナルデータベースやビッグデータ処理基盤上での実現可能性を確認した.
(2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスにおける元データと分析結果の関連性,整合性,トレーサビリティ管理方式を定式化し,リレーショナルデータベースを用いたプロトタイプシステム実装を行った.
(3) 全体処理効率化:リレーショナルデータベースにおける,Augmentedデータ処理を含む複合的分析プロセスの関連性,整合性,トレーサビリティ管理方式について,プロトタイプを用いた処理コストの分析を行い,処理コスト削減に有効な方式を提案した.また,シークエンスデータの時間的パターンオカレンス処理においても,処理効率化に有効な手法を提案した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

現在までの進捗状況については既に述べた通りであり,それに基づき上記の通り判定する.それぞれの進捗についての補足説明を以下に加える.
(1) 高水準ビッグデータ処理記述:機械学習や時空間データ等に関わるAugmentedデータ処理を含む複合的分析プロセスを,ユーザ定義関数(UDF)を組み合わせたリレーショナル演算として記述できる手法を開発し,PostgreSQL上での実装を行った.UDFにより,深層学習モデルを用いた画像やテキストに対する処理等を実現している.また,シークエンスデータの時間的パターンオカレンスや時空間ストリーム処理についても,PostgreSQL,Spark,Flinkを用いたプロトタイプシステムの実装を進め,各種性能測定が可能な実験システムを構築した.
(2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスの関連性,整合性,トレーサビリティ管理に関して,導出元データの所在のみでなく,機械学習等によるAugmentedデータ処理の処理ロジックも含めた拡張来歴を提案し,上記PostgreSQL上のプロトタイプシステムに実装した.
(3) 全体処理効率化:リレーショナルデータベースにおける,Augmentedデータ処理を含む複合的分析プロセスの拡張来歴手法について,プロトタイプを用いた処理コストの分析を行い,UDF処理に関する中間結果を保持する方式が処理コストやデータ格納コストの面で有効であることを確認した.シークエンスデータの時間的パターンオカレンス処理においても,SQL/RPRにおける条件の一部を活用することで処理効率を向上できることを,PostgreSQLとSparkを用いた実験システム上で確認した.さらに,連続的時空間キーワード探索の効率的手法についも検討を行った.

Strategy for Future Research Activity

今後は,これまでの研究成果をより発展されるための研究を行う.特に,以下の点に注力する.
(1) 高水準ビッグデータ処理記述:Augmentedデータ処理を含む複合的分析プロセスの記述力は,現在,主にUDF等によっている.しかし,現在のビッグデータ処理においては,より多様な形態でAugmented処理を記述可能とすることが求められるので,それに対する対応について検討する.また,高水準ビッグデータ処理のためには,機械学習等の処理の高度化に加えて,知識情報を格納した知識ベースの有効活用も重要であるため,その方向での研究の進展も図る.
(2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスの関連性,整合性,トレーサビリティ管理に関して提案した拡張来歴は,現在,リレーショナルデータベース上で実装されている.今後,他のビッグデータ処理基盤上での実現可能性についても検討する必要がある.
(3) 全体処理効率化:拡張来歴手法について,リレーショナルデータベース以外のビッグデータ処理基盤における効率的な実現手法についても検討する必要がある.また,Augmentedデータ取得のための機械学習処理やデータマイニング処理等の要素技術の効率化についても,引き続き検討する必要がある.

  • Research Products

    (8 results)

All 2021 2020 Other

All Journal Article (4 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 4 results,  Open Access: 2 results) Presentation (3 results) (of which Invited: 1 results) Remarks (1 results)

  • [Journal Article] シーケンスデータに対する行パターンマッチングの効率化2021

    • Author(s)
      中挾晃介,北川博之
    • Journal Title

      情報処理学会論文誌

      Volume: 62 Pages: 302-320

    • Peer Reviewed
  • [Journal Article] StreamingCube: Seamless Integration of Stream Processing and OLAP Analysis2020

    • Author(s)
      Shaikh Salman Ahmed、Kitagawa Hiroyuki
    • Journal Title

      IEEE Access

      Volume: 8 Pages: 104632~104649

    • DOI

      10.1109/ACCESS.2020.2999572

    • Peer Reviewed / Open Access
  • [Journal Article] Continuous Top-k Spatial-Keyword Search on Dynamic Objects2020

    • Author(s)
      Dong Yuyang、Xiao Chuan、Chen Hanxiong、Yu Jeffrey Xu、Takeoka Kunihiro、Oyamada Masafumi、Kitagawa Hiroyuki
    • Journal Title

      The VLDB Journal

      Volume: 30 Pages: 141~161

    • DOI

      10.1007/s00778-020-00627-4

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] GeoFlink: A Distributed and Scalable Framework for the Real-time Processing of Spatial Streams2020

    • Author(s)
      Shaikh Salman Ahmed、Mariam Komal、Kitagawa Hiroyuki、Kim Kyoung-Sook
    • Journal Title

      Proc. 29th ACM International Conference on Information and Knowledge Management (CIKM2020)

      Volume: - Pages: 3149-3156

    • DOI

      10.1145/3340531.3412761

    • Peer Reviewed
  • [Presentation] 複合的データ解析を伴う分析処理に対するトレーサビリティの研究2021

    • Author(s)
      山田真也, 北川博之, 天笠俊之
    • Organizer
      第13回データ工学と情報マネジメントに関するフォーラム (DEIM 2021)
  • [Presentation] バンディットアルゴリズムとメンション関係を利用した特定トピックに関する特定の地域のツイートの収集2021

    • Author(s)
      大森雄基,北川博之,天笠俊之
    • Organizer
      情報処理学会第83回全国大会 (IPSJ全国大会 2021)
  • [Presentation] Computing as a Scienceを担うデータベース研究2020

    • Author(s)
      北川博之
    • Organizer
      情報処理学会コンピュータサイエンス領域功績賞受賞記念講演,情報処理学会第171回データベースシステム研究会・情報処理学会第140回情報基礎とアクセス技術研究会・電子情報通信学会データ工学研究会合同研究会
    • Invited
  • [Remarks] 筑波大学 知識・データ工学研究室

    • URL

      https://www.kde.cs.tsukuba.ac.jp/

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi