2019 Fiscal Year Annual Research Report
Research on Augmented Real Big Data Processing Frameworks with High-level Virtualization Facilities
Project/Area Number |
19H04114
|
Research Institution | University of Tsukuba |
Principal Investigator |
北川 博之 筑波大学, 計算科学研究センター, 教授 (00204876)
|
Co-Investigator(Kenkyū-buntansha) |
天笠 俊之 筑波大学, 計算科学研究センター, 教授 (70314531)
塩川 浩昭 筑波大学, 計算科学研究センター, 助教 (90775248)
早瀬 康裕 筑波大学, システム情報系, 助教 (40423090)
堀江 和正 筑波大学, 計算科学研究センター, 助教 (60817112)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | ビッグデータ / 仮想化 |
Outline of Annual Research Achievements |
本研究が目指すAugmentedリアルビッグデータ利活用基盤は,センサ等で直接観測され,ファクトデータとしてデータベースに蓄積されたリアルデータに,機械学習,メタデータ推論,シミュレーション等の高度な拡充・補填処理によって得られるAugmentedデータをシームレスに統合したデータの処理・利活用を実現するシステムである.本研究課題では,Augmentedリアルビッグデータ利活用基盤の構築を目標に,研究期間中に(1) 高水準ビッグデータ処理記述,(2) データの曖昧性や整合性管理,(3) 全体処理効率化に関わる研究開発を行うことを目的としている. 初年度の2019年度は,以下のような基礎的な研究成果を得た. (1) 高水準ビッグデータ処理記述:元データと機械学習等によるAugmentedデータ取得を含む複合的ビッグデータ分析プロセスを処理フローとして記述する手法を定式化した.さらに,シークエンスデータ中に内在する時間的パターンオカレンスをAugmentedデータとして抽出する処理やパターン階層への拡張を記述する手法を開発した. (2) データの曖昧性や整合性管理:上記処理記述に基づく複合的分析プロセスにおける元データとAugmentedデータの関連性,整合性,トレーサビリティの維持を行う手法を開発した. (3) 全体処理効率化:シークエンスデータ中に内在する時間的パターンオカレンスを抽出する処理やパターン階層を含むビッグデータ処理,ストリームに対する移動ウィンドウを用いた集約処理を効率化するための手法を開発し効果を評価した.また,機械学習等を用いて取得したAugmentedデータを含む処理結果から導出元データの所在を特定するためのアルゴリズムについても,処理効率化の検討や他の関連手法との比較等を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までの進捗状況については既に述べた通りであり,それに基づき上記の通り判定する.それぞれの進捗についての補足説明を以下に加える. (1) 高水準ビッグデータ処理記述:元データと機械学習等によるAugmentedデータ取得を含む複合的ビッグデータ分析プロセスの記述は代数演算子をベースとしたものとしている.一方,時間的パターンオカレンスをAugmentedデータとして抽出する処理については,SQL/RPRを用いたものをベースとしているが,代数演算子を用いた記法との互換性の問題はない.現時点では,空間的なAugmentedデータの扱いがやや弱いので,今後はその部分についても検討を進める. (2) データの曖昧性や整合性管理:トレーサビリティについては,機械学習等を用いて取得したAugmentedデータを含む処理結果が与えられた時,その導出元データの所在や導出の源となっているコンテンツの部分等を特定するためのアルゴリズムを開発し試験的な実装を行った. (3) 全体処理効率化:シークエンスデータ中に内在する時間的パターンオカレンスを抽出する処理と機械学習等を用いて取得したAugmentedデータを含む処理結果から導出元データの所在を特定するためのアルゴリズムのいずれについても,PostgreSQLやSparkを用いた実験システムを用いて実証的に研究を推進している.
|
Strategy for Future Research Activity |
今後は,これまでの研究成果をより発展されるための研究を行う.特に,以下の点に注力する. (1) 高水準ビッグデータ処理記述:元データと機械学習等によるAugmentedデータ取得を含む複合的分析プロセスの記述力をより強化する.また,時間的パターン抽出を時空間パターンに拡張することについても検討を行う.さらに,高次元ビッグデータ分析のため処理記述についても検討する. (2) データの曖昧性や整合性管理:元データとAugmentedデータの関連性,整合性,トレーサビリティ管理を実装したシステムを開発する.特に,従来の関連性,整合性,トレーサビリティでは,導出元データの所在の特定が主要な問題とされてきたが,機械学習等によるAugmentedデータが対象となる場合には,その所在のみではなく処理ロジック自体も含めて考える必要があることが明らかになってきたため,そのためのトレーサビリティの概念拡張についても検討する. (3) 全体処理効率化:時間的パターンオカレンス抽出処理の最適化方式について,実際のビッグデータ処理システム上での有効性評価やコストモデルの構築を行う.また,元データとAugmentedデータの関連性,整合性,トレーサビリティ管理を実装したシステムに関してもより効率の良い処理方式について検討する.さらに,高次元ビッグデータ分析処理の効率化や,ターゲットとするビッグデータの効率的取得手法についても検討する.
|