2021 Fiscal Year Annual Research Report
Research on Augmented Real Big Data Processing Frameworks with High-level Virtualization Facilities
Project/Area Number |
19H04114
|
Research Institution | University of Tsukuba |
Principal Investigator |
北川 博之 筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)
|
Co-Investigator(Kenkyū-buntansha) |
天笠 俊之 筑波大学, 計算科学研究センター, 教授 (70314531)
塩川 浩昭 筑波大学, 計算科学研究センター, 准教授 (90775248)
早瀬 康裕 筑波大学, システム情報系, 助教 (40423090)
堀江 和正 筑波大学, 計算科学研究センター, 助教 (60817112)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | ビッグデータ / 仮想化 |
Outline of Annual Research Achievements |
本研究が目指すAugmentedリアルビッグデータ利活用基盤は,センサ等で直接観測され,ファクトデータとしてデータベースに蓄積されたリアルデータに,機械学習,メタデータ推論,シミュレーション等の高度な拡充・補填処理によって得られるAugmentedデータをシームレスに統合したデータの処理・利活用を実現するシステムである.本研究課題では,Augmentedリアルビッグデータ利活用基盤の構築を目標に,研究期間中に(1) 高水準ビッグデータ処理記述,(2) データの曖昧性や整合性管理,(3) 全体処理効率化に関わる研究開発を行うことを目的としている. 2021年度は,以下のような研究成果を得た. (1) 高水準ビッグデータ処理記述:機械学習や時空間データ処理等に関わるAugmentedデータ処理を含む複合的分析プロセスを記述できる手法について,リレーショナルデータベースに加えて,時空間Augmentedストリーム処理システムの実現を進めた.また,新たにRDF知識処理モデルにおけるAugmentedデータ処理についても検討を行い,外部情報源をAugmentedデータとして知識ベース処理に統合する方式を開発した. (2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスにおける元データと分析結果の関連性,整合性,トレーサビリティ管理方式である拡張来歴について,リレーショナルデータベースを用いたプロトタイプシステムの強化を行った.また,ストリーム処理システムへの適用についても検討を進めた. (3) 全体処理効率化:リレーショナルデータベースにおける拡張来歴システムについて,ベンチマークデータを用いた定量的な性能評価を行った.また,時空間Augmentedストリーム処理についても,空間索引を用いた効率化手法を用いて様々な環境での性能評価を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までの進捗状況については既に述べた通りであり,それに基づき上記の通り判定する.それぞれの進捗についての補足説明を以下に加える. (1) 高水準ビッグデータ処理記述:機械学習や時空間データ処理等に関わるAugmentedデータ処理を適用した時空間Augmentedストリーム処理の実現のため,Flinkを用いたプロトタイプシステムの開発を進めた.本システムでは,様々な空間オブジェクトのストリームに対して,空間的な近さや時間的な前後関係等を用いた処理が効率的に可能である.また,RDF知識処理モデルにおけるAugmentedデータ処理については,外部情報源や外部情報サービスをユーザ定義述語を用いてRDFに対する知識ベース処理に統合する方式を考案し,そのプロトタイプシステムを構築した. (2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスに対する拡張来歴について,リレーショナルデータベースを用いたプロトタイプシステムで各種性能評価を行うため,必要なUDFの実装や整備を行った.また,RDF知識処理モデルにおけるAugmentedデータ処理の整合性を維持するため,適切なエンティティを発見する手法を開発した. (3) 全体処理効率化:リレーショナルデータベースにおける拡張来歴システムについて,TPC-Hを拡張したベンチマークデータを用いた定量的な性能評価を行った.また,時空間Augmentedストリーム処理についても,上記のFlink上に実装したシステムを用いて空間索引を用いた効率化の有効性等を評価した.また,Augmentedデータ取得のための機械学習処理やデータマイニング処理等の要素技術の効率化についても,ストリーム処理における外れ値検出や集約計算,ソーシャルメディアにおける目的データ取得等を対象とした効率化手法を提案した.
|
Strategy for Future Research Activity |
今後は,これまでの研究成果をより発展されるための研究を行う.特に,以下の点に注力する. (1) 高水準ビッグデータ処理記述:Augmentedデータ取得を含む複合的分析プロセスのストリーム処理における記述力強化.特に,これまで実現した時空間Augmentedデータに加えて,機械学習等への対応について検討する必要がある.また,Augmentedデータ取得を含むRDF知識処理モデルについても,これまで開発したユーザ定義述語を用いた手法の強化について検討する. (2) データの曖昧性や整合性管理:複合的分析プロセスに対する拡張来歴について,これまでのリレーショナルデータベース上での実装に加えて,ストリーム処理システムでの実現について本格的に検討する.また,RDF知識処理モデルにおけるAugmentedデータ処理の整合性のためのエンティティ発見手法について,その有効性を評価する. (3) 全体処理効率化:拡張来歴手法について,ストリーム処理システムにおける効率的な実現手法についても検討する.また,Augmentedデータ取得のための機械学習処理やデータマイニング処理等の要素技術の効率化についても,引き続き検討を継続する.
|
Research Products
(9 results)