パーベイシブトレーサビリティを実現する複合的ビッグデータ処理基盤

研究課題

研究課題/領域番号	23K28089
補助金の研究課題番号	23H03399 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分60080:データベース関連小区分62020:ウェブ情報学およびサービス情報学関連合同審査対象区分:小区分60080:データベース関連、小区分62020:ウェブ情報学およびサービス情報学関連
研究機関	筑波大学
研究代表者	北川博之筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)
研究分担者	天笠俊之筑波大学, 計算科学研究センター, 教授 (70314531) 塩川浩昭筑波大学, 計算科学研究センター, 准教授 (90775248) 堀江和正筑波大学, 計算科学研究センター, 助教 (60817112) 橋本武彦 (BouSavong) 筑波大学, 計算科学研究センター, 助教 (80910760)
研究期間 (年度)	2023-04-01 – 2027-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,590千円 (直接経費: 14,300千円、間接経費: 4,290千円) 2026年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2025年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2024年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円) 2023年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
キーワード	ビッグデータ / トレーサビリティ / 来歴 / 複合的ビッグデータ処理
研究開始時の研究の概要	ビッグデータ活用の進展に伴い，データ処理の高度化・多様化が進んでいる．データベース，ストリーム処理，ビッグデータ分析，機械学習，メディア処理等の処理様式を組み合わせた複合的ビッグデータ処理が一般的になりつつある．このようなシステムを社会基盤として活用していく上で，処理のトレーサビリティを如何に担保するかが重要な課題となる．本研究では，複合的ビッグデータ処理において，「処理結果がいつどの処理によってどのデータに基づき何故生成されどう信頼できるか」を的確に把握できるパーベイシブトレーサビリティの実現を目指す．コアとなるモデル，概念を定式化し，実現のための要素技術とシステム技術を明らかにする．
研究実績の概要	ビッグデータ活用の進展に伴い，データ処理の高度化・多様化が進んでいる．蓄積データやストリーム等を対象に，データベース，ストリーム処理，ビッグデータ分析，機械学習，メディア処理等の処理様式を組み合わせた複合的ビッグデータ処理が一般的になりつつある．このようなシステムを社会基盤として活用していく上で，処理のトレーサビリティを如何に担保するかが重要な課題となる．本研究では，複合的ビッグデータ処理において，「処理結果がいつどの処理によってどのデータに基づき何故生成されどう信頼できるか」を的確に把握できるパーベイシブトレーサビリティの実現を目指す．(1) 複合的ビッグデータ処理モデルとトレーサビリティモデル，(2)各データ処理様式に対応したトレーサビリティのためのメタデータ処理方式，(3) 処理方式を横断するトレーサビリティ機構，(4) 同機構の高速化，最適化，の４点を中心に研究開発を進める．初年度の2023年度は，上記の４点を中心に以下のような基礎的な研究成果を得た． (1) 複合的ビッグデータ処理を統一的に記述するためのデータモデルを定式化し．トレーサビリティのためのメタデータを導出する手法について検討した．(2) 複合的ビッグデータ処理の主要処理様式である，データベース・ビッグデータ分析，ストリーム処理，機械学習・メディア処理におけるトレサビリティの実現手法を検討した．(3) データベース分析に機械学習を融合させた処理においてデータ処理後，ストリーム処理に機械学習を融合させた処理においてデータ処理と同時にトレーサビリティ情報を導出する手法を新規に開発した．(4) データベース分析と機械学習が融合した処理において，効率的にトレーサビリティ情報を獲得する新たな手法を提案し実験によりその有効性を示した．さらに，複合的ビッグデータ処理に関わる複数の要素技術について研究開発を推進した．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由現在までの進捗状況の概要は既に述べた通りであるが，進捗についての補足説明を以下に加える． (1) 複合的ビッグデータ処理モデルとして，基本代数演算とユーザ定義関数・メソッド（UDF）を主体とするデータモデルを定式化した．また，同データモデルに基づきトレーサビリティを確保するためのメタデータやその計算モデルについて検討した．さらに，知識ベースと外部情報源の活用を可能とする複合的ビッグデータ処理モデルについても併せて検討した． (2) A．データベース・ビッグデータ分析，B．ストリーム処理，C．機械学習・メディア処理におけるトレーサビリティ実現手法を検討した．Aについてはデータ処理後に，Bについてはデータ処理と同時にトレーサビリティ情報を確保する手法について検討した．Cについては，処理内容に大きく依存するため，UDFに付随する情報としてトレーサビリティ関連情報を管理するのが適切と判断した． (3) データベース分析，あるいはストリーム処理に機械学習を融合させた場合におけるトレーサビリティの検討を行った．上記(2)の検討に基づき，前者においてデータ処理後に，後者においてデータ処理と同時にトレーサビリティを確保する手法を新規に開発した． (4) データベース分析と機械学習が融合した処理は，一般に機械学習のコストが大きな割合を占める傾向があることに着目し，効率的にトレーサビリティを確保する新たな手法を提案した．また，ストリーム処理に機械学習を融合させた処理においても，同様の傾向があるため，トレーサビリティのためのメタデータ処理が大きな処理オーバヘッドにならないことを示した． (5) 今後のデータ処理の多様化を見据え，Boundary Point検出，欠損値補間等のマイニング技術，ストリーム処理応用，非順序ストリーム処理等の複合的ビッグデータ処理に関わる新たな要素技術についても，研究を進めた．
今後の研究の推進方策	今後は，これまでの研究成果をより発展されるための研究を行う．特に，以下の点に注力する． (1) 複合的ビッグデータ処理モデルとして，基本代数演算とユーザ定義関数・メソッド（UDF）を主体とするデータモデルによる記述力を様々なデータ処理を用いて検証する．また，知識ベースと外部情報源の活用を可能とする複合的ビッグデータ処理モデルについても，対象に応じて適切なエンテイティリンク方法を組み合わせられるような柔軟な方式のついて検討する． (2) A．データベース・ビッグデータ分析，B．ストリーム処理，C．機械学習・メディア処理におけるトレーサビリティ実現手法の検討を継続する．特に，Bについてはデータ処理と同時にトレーサビリティ情報を確保する手法を既に検討済である．しかし，処理後にトレーサビリティ情報を確保することが可能になれば通常処理のオーバヘッド削減が実現できるが，これのようなアプローチはこれまで研究がなかった．そのような新たな視点からのアプローチに取り組む． (3) 上記(2)に対応して，ストリーム処理に機械学習を融合させた場合において，データ処理後にトレーサビリティを確保する手法を新規に開発する．これまでの予備的検討によって，その実現可能性については一定の見通しを得ており，今後はプロトタイプを用いた実験等を含めた検討を進める． (4) ストリーム処理に機械学習を融合させた場合において，データ処理後にトレーサビリティを確保する手法を中心に，様々な手法との性能評価実験を進める． (5) 複合的ビッグデータ処理に関わる新たな要素技術についても，継続して研究を進める．特に，トレーサビリティとリカバリ，リスケーリング等，これまで独立の項目として研究がされていた技術の関連性にも着目して研究を進める．

報告書

(1件)

2023 実績報告書

研究成果
(10件)

すべて 2024 2023

すべて雑誌論文 (6件) (うち国際共著 1件、査読あり 6件、オープンアクセス 2件) 学会発表 (4件) (うち招待講演 1件)

[雑誌論文] 複合的ストリーム処理に対するトレーサビリティの研究2024
- 著者名/発表者名
  山田真也, 北川博之, SalmanAhmed Shaikh, 天笠俊之, 的野晃整
- 雑誌名
  
  日本データベース学会データドリブンスタディーズ
  
  巻: 2 ページ: 1-8
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] BPF: A Novel Cluster Boundary Points Detection Method for Static and Streaming Data2023
- 著者名/発表者名
  Vijdan Khalique, Hiroyuki Kitagawa, and Toshiyuki Amagasa
- 雑誌名
  
  Knowledge and Information Systems
  
  巻: - 号: 7 ページ: 1-32
- DOI
  10.1007/s10115-023-01854-1
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] CPiX: Real-Time Analytics over Out-of-Order Data Streams by Incremental Sliding-Window Aggregation2023
- 著者名/発表者名
  Savong Bou, Hiroyuki Kitagawa, Toshiyuki Amagasa
- 雑誌名
  
  2023 IEEE 39th International Conference on Data Engineering (ICDE)
  
  巻: - ページ: 3759-3760
- DOI
  10.1109/icde55515.2023.00310
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Integration of Knowledge Bases and External Information Sources via Magic Properties and Query-driven Entity Linking2023
- 著者名/発表者名
  Yuuki Ohmori, Hiroyuki Kitagawa, Toshiyuki Amagasa, Akiyoshi Matono
- 雑誌名
  
  Information Integration and Web Intelligence (iiWAS2023)
  
  巻: 14416 ページ: 309-324
- DOI
  10.1007/978-3-031-48316-5_30
- ISBN
  9783031483158, 9783031483165
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] TraPM: A Framework for Online Pattern Matching over Trajectory Streams2023
- 著者名/発表者名
  Rina Trisminingsih, Salman Ahmed Shaikh, Toshiyuki Amagasa, Hiroyuki Kitagawa, Akiyoshi Matono
- 雑誌名
  
  Proc. Information Integration and Web Intelligence: 25th International Conference(iiWAS2023)
  
  巻: - ページ: 510-525
- DOI
  10.1007/978-3-031-48316-5_45
- ISBN
  9783031483158, 9783031483165
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Efficient Missing Value Imputation by Maximum Distance Likelihood2023
- 著者名/発表者名
  Savong Bou, Toshiyuki Amagasa, Hiroyuki Kitagawa, Salman Ahmed Shaikh, Akiyoshi Matono
- 雑誌名
  
  2023 IEEE International Conference on Big Data (BigData)
  
  巻: - ページ: 331-338
- DOI
  10.1109/bigdata59044.2023.10386584
- 関連する報告書
  2023 実績報告書
- 査読あり / 国際共著
[学会発表] ユーザ定義の述語とエンティティリンキングを利用した知識ベースと外部情報源の統合利用2024
- 著者名/発表者名
  大森雄基, 北川博之, 天笠俊之, 的野晃整
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム (DEIM 2024)
- 関連する報告書
  2023 実績報告書
[学会発表] レム睡眠のリアルタイム自動検出に関する研究2024
- 著者名/発表者名
  佐野史弥, 国生泰資, 堀江和正, 古木淳也, 鈴木陽子, 阿部高志, 北川博之
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム (DEIM 2024)
- 関連する報告書
  2023 実績報告書
[学会発表] リアルタイム睡眠ステージ判定システムの開発と評価2024
- 著者名/発表者名
  国生泰資, 堀江和正, 鈴木陽子, 阿部高志, 北川博之
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム (DEIM 2024)
- 関連する報告書
  2023 実績報告書
[学会発表] 深層学習を活用したヒト睡眠の自動解析2023
- 著者名/発表者名
  北川博之
- 学会等名
  日本睡眠学会第45回定期学術集会・第30回日本時間生物学会学術大会合同大会, シンポジウム8
- 関連する報告書
  2023 実績報告書
- 招待講演

パーベイシブトレーサビリティを実現する複合的ビッグデータ処理基盤

研究代表者

北川 博之 筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)

18,590千円 (直接経費: 14,300千円、間接経費: 4,290千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 複合的ストリーム処理に対するトレーサビリティの研究2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] BPF: A Novel Cluster Boundary Points Detection Method for Static and Streaming Data2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] CPiX: Real-Time Analytics over Out-of-Order Data Streams by Incremental Sliding-Window Aggregation2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Integration of Knowledge Bases and External Information Sources via Magic Properties and Query-driven Entity Linking2023

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] TraPM: A Framework for Online Pattern Matching over Trajectory Streams2023

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Efficient Missing Value Imputation by Maximum Distance Likelihood2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] ユーザ定義の述語とエンティティリンキングを利用した知識ベースと外部情報源の統合利用2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] レム睡眠のリアルタイム自動検出に関する研究2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] リアルタイム睡眠ステージ判定システムの開発と評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層学習を活用したヒト睡眠の自動解析2023

著者名/発表者名

学会等名

関連する報告書

北川博之筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)