研究課題/領域番号 |
23K28089
|
補助金の研究課題番号 |
23H03399 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分60080:データベース関連
小区分62020:ウェブ情報学およびサービス情報学関連
合同審査対象区分:小区分60080:データベース関連、小区分62020:ウェブ情報学およびサービス情報学関連
|
研究機関 | 筑波大学 |
研究代表者 |
北川 博之 筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)
|
研究分担者 |
天笠 俊之 筑波大学, 計算科学研究センター, 教授 (70314531)
塩川 浩昭 筑波大学, 計算科学研究センター, 准教授 (90775248)
堀江 和正 筑波大学, 計算科学研究センター, 助教 (60817112)
橋本 武彦 (BouSavong) 筑波大学, 計算科学研究センター, 助教 (80910760)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
18,590千円 (直接経費: 14,300千円、間接経費: 4,290千円)
2026年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2025年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2023年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
|
キーワード | ビッグデータ / トレーサビリティ / 来歴 / 複合的ビッグデータ処理 |
研究開始時の研究の概要 |
ビッグデータ活用の進展に伴い,データ処理の高度化・多様化が進んでいる.データベース,ストリーム処理,ビッグデータ分析,機械学習,メディア処理等の処理様式を組み合わせた複合的ビッグデータ処理が一般的になりつつある.このようなシステムを社会基盤として活用していく上で,処理のトレーサビリティを如何に担保するかが重要な課題となる.本研究では,複合的ビッグデータ処理において,「処理結果がいつどの処理によってどのデータに基づき何故生成されどう信頼できるか」を的確に把握できるパーベイシブトレーサビリティの実現を目指す.コアとなるモデル,概念を定式化し,実現のための要素技術とシステム技術を明らかにする.
|
研究実績の概要 |
ビッグデータ活用の進展に伴い,データ処理の高度化・多様化が進んでいる.蓄積データやストリーム等を対象に,データベース,ストリーム処理,ビッグデータ分析,機械学習,メディア処理等の処理様式を組み合わせた複合的ビッグデータ処理が一般的になりつつある.このようなシステムを社会基盤として活用していく上で,処理のトレーサビリティを如何に担保するかが重要な課題となる.本研究では,複合的ビッグデータ処理において,「処理結果がいつどの処理によってどのデータに基づき何故生成されどう信頼できるか」を的確に把握できるパーベイシブトレーサビリティの実現を目指す.(1) 複合的ビッグデータ処理モデルとトレーサビリティモデル,(2)各データ処理様式に対応したトレーサビリティのためのメタデータ処理方式,(3) 処理方式を横断するトレーサビリティ機構,(4) 同機構の高速化,最適化,の4点を中心に研究開発を進める. 初年度の2023年度は,上記の4点を中心に以下のような基礎的な研究成果を得た. (1) 複合的ビッグデータ処理を統一的に記述するためのデータモデルを定式化し.トレーサビリティのためのメタデータを導出する手法について検討した.(2) 複合的ビッグデータ処理の主要処理様式である,データベース・ビッグデータ分析,ストリーム処理,機械学習・メディア処理におけるトレサビリティの実現手法を検討した.(3) データベース分析に機械学習を融合させた処理においてデータ処理後,ストリーム処理に機械学習を融合させた処理においてデータ処理と同時にトレーサビリティ情報を導出する手法を新規に開発した.(4) データベース分析と機械学習が融合した処理において,効率的にトレーサビリティ情報を獲得する新たな手法を提案し実験によりその有効性を示した.さらに,複合的ビッグデータ処理に関わる複数の要素技術について研究開発を推進した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
現在までの進捗状況の概要は既に述べた通りであるが,進捗についての補足説明を以下に加える. (1) 複合的ビッグデータ処理モデルとして,基本代数演算とユーザ定義関数・メソッド(UDF)を主体とするデータモデルを定式化した.また,同データモデルに基づきトレーサビリティを確保するためのメタデータやその計算モデルについて検討した.さらに,知識ベースと外部情報源の活用を可能とする複合的ビッグデータ処理モデルについても併せて検討した. (2) A.データベース・ビッグデータ分析,B.ストリーム処理,C.機械学習・メディア処理におけるトレーサビリティ実現手法を検討した.Aについてはデータ処理後に,Bについてはデータ処理と同時にトレーサビリティ情報を確保する手法について検討した.Cについては,処理内容に大きく依存するため,UDFに付随する情報としてトレーサビリティ関連情報を管理するのが適切と判断した. (3) データベース分析,あるいはストリーム処理に機械学習を融合させた場合におけるトレーサビリティの検討を行った.上記(2)の検討に基づき,前者においてデータ処理後に,後者においてデータ処理と同時にトレーサビリティを確保する手法を新規に開発した. (4) データベース分析と機械学習が融合した処理は,一般に機械学習のコストが大きな割合を占める傾向があることに着目し,効率的にトレーサビリティを確保する新たな手法を提案した.また,ストリーム処理に機械学習を融合させた処理においても,同様の傾向があるため,トレーサビリティのためのメタデータ処理が大きな処理オーバヘッドにならないことを示した. (5) 今後のデータ処理の多様化を見据え,Boundary Point検出,欠損値補間等のマイニング技術,ストリーム処理応用,非順序ストリーム処理等の複合的ビッグデータ処理に関わる新たな要素技術についても,研究を進めた.
|
今後の研究の推進方策 |
今後は,これまでの研究成果をより発展されるための研究を行う.特に,以下の点に注力する. (1) 複合的ビッグデータ処理モデルとして,基本代数演算とユーザ定義関数・メソッド(UDF)を主体とするデータモデルによる記述力を様々なデータ処理を用いて検証する.また,知識ベースと外部情報源の活用を可能とする複合的ビッグデータ処理モデルについても,対象に応じて適切なエンテイティリンク方法を組み合わせられるような柔軟な方式のついて検討する. (2) A.データベース・ビッグデータ分析,B.ストリーム処理,C.機械学習・メディア処理におけるトレーサビリティ実現手法の検討を継続する.特に,Bについてはデータ処理と同時にトレーサビリティ情報を確保する手法を既に検討済である.しかし,処理後にトレーサビリティ情報を確保することが可能になれば通常処理のオーバヘッド削減が実現できるが,これのようなアプローチはこれまで研究がなかった.そのような新たな視点からのアプローチに取り組む. (3) 上記(2)に対応して,ストリーム処理に機械学習を融合させた場合において,データ処理後にトレーサビリティを確保する手法を新規に開発する.これまでの予備的検討によって,その実現可能性については一定の見通しを得ており,今後はプロトタイプを用いた実験等を含めた検討を進める. (4) ストリーム処理に機械学習を融合させた場合において,データ処理後にトレーサビリティを確保する手法を中心に,様々な手法との性能評価実験を進める. (5) 複合的ビッグデータ処理に関わる新たな要素技術についても,継続して研究を進める.特に,トレーサビリティとリカバリ,リスケーリング等,これまで独立の項目として研究がされていた技術の関連性にも着目して研究を進める.
|