2020 Fiscal Year Annual Research Report
Research on Augmented Real Big Data Processing Frameworks with High-level Virtualization Facilities
Project/Area Number |
19H04114
|
Research Institution | University of Tsukuba |
Principal Investigator |
北川 博之 筑波大学, 国際統合睡眠医科学研究機構, 教授 (00204876)
|
Co-Investigator(Kenkyū-buntansha) |
天笠 俊之 筑波大学, 計算科学研究センター, 教授 (70314531)
塩川 浩昭 筑波大学, 計算科学研究センター, 准教授 (90775248)
早瀬 康裕 筑波大学, システム情報系, 助教 (40423090)
堀江 和正 筑波大学, 計算科学研究センター, 助教 (60817112)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | ビッグデータ / 仮想化 |
Outline of Annual Research Achievements |
本研究が目指すAugmentedリアルビッグデータ利活用基盤は,センサ等で直接観測され,ファクトデータとしてデータベースに蓄積されたリアルデータに,機械学習,メタデータ推論,シミュレーション等の高度な拡充・補填処理によって得られるAugmentedデータをシームレスに統合したデータの処理・利活用を実現するシステムである.本研究課題では,Augmentedリアルビッグデータ利活用基盤の構築を目標に,研究期間中に(1) 高水準ビッグデータ処理記述,(2) データの曖昧性や整合性管理,(3) 全体処理効率化に関わる研究開発を行うことを目的としている. 2020年度は,以下のような研究成果を得た. (1) 高水準ビッグデータ処理記述:機械学習や時空間データ処理等に関わるAugmentedデータ処理を含む複合的分析プロセスを記述できる手法の具体化を進め,リレーショナルデータベース上のシステムとして実装できることを確認した.また,シークエンスデータの時間的パターンオカレンスをAugmentedデータとして取得する処理についても,同様にリレーショナルデータベースやビッグデータ処理基盤上での実現可能性を確認した. (2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスにおける元データと分析結果の関連性,整合性,トレーサビリティ管理方式を定式化し,リレーショナルデータベースを用いたプロトタイプシステム実装を行った. (3) 全体処理効率化:リレーショナルデータベースにおける,Augmentedデータ処理を含む複合的分析プロセスの関連性,整合性,トレーサビリティ管理方式について,プロトタイプを用いた処理コストの分析を行い,処理コスト削減に有効な方式を提案した.また,シークエンスデータの時間的パターンオカレンス処理においても,処理効率化に有効な手法を提案した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までの進捗状況については既に述べた通りであり,それに基づき上記の通り判定する.それぞれの進捗についての補足説明を以下に加える. (1) 高水準ビッグデータ処理記述:機械学習や時空間データ等に関わるAugmentedデータ処理を含む複合的分析プロセスを,ユーザ定義関数(UDF)を組み合わせたリレーショナル演算として記述できる手法を開発し,PostgreSQL上での実装を行った.UDFにより,深層学習モデルを用いた画像やテキストに対する処理等を実現している.また,シークエンスデータの時間的パターンオカレンスや時空間ストリーム処理についても,PostgreSQL,Spark,Flinkを用いたプロトタイプシステムの実装を進め,各種性能測定が可能な実験システムを構築した. (2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスの関連性,整合性,トレーサビリティ管理に関して,導出元データの所在のみでなく,機械学習等によるAugmentedデータ処理の処理ロジックも含めた拡張来歴を提案し,上記PostgreSQL上のプロトタイプシステムに実装した. (3) 全体処理効率化:リレーショナルデータベースにおける,Augmentedデータ処理を含む複合的分析プロセスの拡張来歴手法について,プロトタイプを用いた処理コストの分析を行い,UDF処理に関する中間結果を保持する方式が処理コストやデータ格納コストの面で有効であることを確認した.シークエンスデータの時間的パターンオカレンス処理においても,SQL/RPRにおける条件の一部を活用することで処理効率を向上できることを,PostgreSQLとSparkを用いた実験システム上で確認した.さらに,連続的時空間キーワード探索の効率的手法についも検討を行った.
|
Strategy for Future Research Activity |
今後は,これまでの研究成果をより発展されるための研究を行う.特に,以下の点に注力する. (1) 高水準ビッグデータ処理記述:Augmentedデータ処理を含む複合的分析プロセスの記述力は,現在,主にUDF等によっている.しかし,現在のビッグデータ処理においては,より多様な形態でAugmented処理を記述可能とすることが求められるので,それに対する対応について検討する.また,高水準ビッグデータ処理のためには,機械学習等の処理の高度化に加えて,知識情報を格納した知識ベースの有効活用も重要であるため,その方向での研究の進展も図る. (2) データの曖昧性や整合性管理:Augmentedデータ処理を含む複合的分析プロセスの関連性,整合性,トレーサビリティ管理に関して提案した拡張来歴は,現在,リレーショナルデータベース上で実装されている.今後,他のビッグデータ処理基盤上での実現可能性についても検討する必要がある. (3) 全体処理効率化:拡張来歴手法について,リレーショナルデータベース以外のビッグデータ処理基盤における効率的な実現手法についても検討する必要がある.また,Augmentedデータ取得のための機械学習処理やデータマイニング処理等の要素技術の効率化についても,引き続き検討する必要がある.
|
Research Products
(8 results)