2023 Fiscal Year Annual Research Report
Complex Big Data Processing Framework for Pervasice Traceability
Project/Area Number |
23H03399
|
Allocation Type | Single-year Grants |
Research Institution | University of Tsukuba |
Principal Investigator |
北川 博之 筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)
|
Co-Investigator(Kenkyū-buntansha) |
天笠 俊之 筑波大学, 計算科学研究センター, 教授 (70314531)
塩川 浩昭 筑波大学, 計算科学研究センター, 准教授 (90775248)
堀江 和正 筑波大学, 計算科学研究センター, 助教 (60817112)
橋本 武彦 (BouSavong) 筑波大学, 計算科学研究センター, 助教 (80910760)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Keywords | ビッグデータ / トレーサビリティ / 来歴 / 複合的ビッグデータ処理 |
Outline of Annual Research Achievements |
ビッグデータ活用の進展に伴い,データ処理の高度化・多様化が進んでいる.蓄積データやストリーム等を対象に,データベース,ストリーム処理,ビッグデータ分析,機械学習,メディア処理等の処理様式を組み合わせた複合的ビッグデータ処理が一般的になりつつある.このようなシステムを社会基盤として活用していく上で,処理のトレーサビリティを如何に担保するかが重要な課題となる.本研究では,複合的ビッグデータ処理において,「処理結果がいつどの処理によってどのデータに基づき何故生成されどう信頼できるか」を的確に把握できるパーベイシブトレーサビリティの実現を目指す.(1) 複合的ビッグデータ処理モデルとトレーサビリティモデル,(2)各データ処理様式に対応したトレーサビリティのためのメタデータ処理方式,(3) 処理方式を横断するトレーサビリティ機構,(4) 同機構の高速化,最適化,の4点を中心に研究開発を進める. 初年度の2023年度は,上記の4点を中心に以下のような基礎的な研究成果を得た. (1) 複合的ビッグデータ処理を統一的に記述するためのデータモデルを定式化し.トレーサビリティのためのメタデータを導出する手法について検討した.(2) 複合的ビッグデータ処理の主要処理様式である,データベース・ビッグデータ分析,ストリーム処理,機械学習・メディア処理におけるトレサビリティの実現手法を検討した.(3) データベース分析に機械学習を融合させた処理においてデータ処理後,ストリーム処理に機械学習を融合させた処理においてデータ処理と同時にトレーサビリティ情報を導出する手法を新規に開発した.(4) データベース分析と機械学習が融合した処理において,効率的にトレーサビリティ情報を獲得する新たな手法を提案し実験によりその有効性を示した.さらに,複合的ビッグデータ処理に関わる複数の要素技術について研究開発を推進した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
現在までの進捗状況の概要は既に述べた通りであるが,進捗についての補足説明を以下に加える. (1) 複合的ビッグデータ処理モデルとして,基本代数演算とユーザ定義関数・メソッド(UDF)を主体とするデータモデルを定式化した.また,同データモデルに基づきトレーサビリティを確保するためのメタデータやその計算モデルについて検討した.さらに,知識ベースと外部情報源の活用を可能とする複合的ビッグデータ処理モデルについても併せて検討した. (2) A.データベース・ビッグデータ分析,B.ストリーム処理,C.機械学習・メディア処理におけるトレーサビリティ実現手法を検討した.Aについてはデータ処理後に,Bについてはデータ処理と同時にトレーサビリティ情報を確保する手法について検討した.Cについては,処理内容に大きく依存するため,UDFに付随する情報としてトレーサビリティ関連情報を管理するのが適切と判断した. (3) データベース分析,あるいはストリーム処理に機械学習を融合させた場合におけるトレーサビリティの検討を行った.上記(2)の検討に基づき,前者においてデータ処理後に,後者においてデータ処理と同時にトレーサビリティを確保する手法を新規に開発した. (4) データベース分析と機械学習が融合した処理は,一般に機械学習のコストが大きな割合を占める傾向があることに着目し,効率的にトレーサビリティを確保する新たな手法を提案した.また,ストリーム処理に機械学習を融合させた処理においても,同様の傾向があるため,トレーサビリティのためのメタデータ処理が大きな処理オーバヘッドにならないことを示した. (5) 今後のデータ処理の多様化を見据え,Boundary Point検出,欠損値補間等のマイニング技術,ストリーム処理応用,非順序ストリーム処理等の複合的ビッグデータ処理に関わる新たな要素技術についても,研究を進めた.
|
Strategy for Future Research Activity |
今後は,これまでの研究成果をより発展されるための研究を行う.特に,以下の点に注力する. (1) 複合的ビッグデータ処理モデルとして,基本代数演算とユーザ定義関数・メソッド(UDF)を主体とするデータモデルによる記述力を様々なデータ処理を用いて検証する.また,知識ベースと外部情報源の活用を可能とする複合的ビッグデータ処理モデルについても,対象に応じて適切なエンテイティリンク方法を組み合わせられるような柔軟な方式のついて検討する. (2) A.データベース・ビッグデータ分析,B.ストリーム処理,C.機械学習・メディア処理におけるトレーサビリティ実現手法の検討を継続する.特に,Bについてはデータ処理と同時にトレーサビリティ情報を確保する手法を既に検討済である.しかし,処理後にトレーサビリティ情報を確保することが可能になれば通常処理のオーバヘッド削減が実現できるが,これのようなアプローチはこれまで研究がなかった.そのような新たな視点からのアプローチに取り組む. (3) 上記(2)に対応して,ストリーム処理に機械学習を融合させた場合において,データ処理後にトレーサビリティを確保する手法を新規に開発する.これまでの予備的検討によって,その実現可能性については一定の見通しを得ており,今後はプロトタイプを用いた実験等を含めた検討を進める. (4) ストリーム処理に機械学習を融合させた場合において,データ処理後にトレーサビリティを確保する手法を中心に,様々な手法との性能評価実験を進める. (5) 複合的ビッグデータ処理に関わる新たな要素技術についても,継続して研究を進める.特に,トレーサビリティとリカバリ,リスケーリング等,これまで独立の項目として研究がされていた技術の関連性にも着目して研究を進める.
|