2019 Fiscal Year Research-status Report
Expansion of efficient search and discovery technology for processing massive data stream in the real world
Project/Area Number |
18K19771
|
Research Institution | Hokkaido University |
Principal Investigator |
有村 博紀 北海道大学, 情報科学研究院, 教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
トーマス ツォイクマン 北海道大学, 情報科学研究院, 教授 (60374609)
喜田 拓也 北海道大学, 情報科学研究院, 准教授 (70343316)
|
Project Period (FY) |
2018-06-29 – 2021-03-31
|
Keywords | ストリームデータ処理 / データマイニング / 情報検索 / 大規模列挙 / 文脈性 / 並列ソルバー |
Outline of Annual Research Achievements |
本研究では,多様で膨大な実世界時空間ストリームデータに対する高速大規模処理の基盤技術として,複雑なパターンに対する検索・計数・発見技術を中心に研究開発している.研究組織として,研究代表者の有村が高速パターン検索・発見技術の研究開発を,研究分担者のトーマス ツォイクマンが多重ストリーム処理と知識発見の理論の構築を,連携研究者のジョーダン チャールズハロルドが超高速確率計算手法の開発を担当し,相互に協力つつ研究を遂行する.とくに本研究では,アルゴリズムの高速性と低メモリ性に加えて,実世界時空間ストリーム処理の特性に対応して,適応性・文脈性・多重性をもつアルゴリズムの開発に焦点を当てて研究した.各テーマごとに,アルゴリズム開発と,理論解析,実装評価を並行して進めた.具体的には,研究期間全体では,次の5つの分担研究項目の研究を行った: (A1) ビット並列技法を用いた超高速実世界ストリーム検索技術の研究開発(有村)計算ハードウェアに内在する並列性を利用して、ストリーム処理を準線形時間に高速化する。 (A2) 確率的手法に基づく超高速実世界ストリーム計数技術の研究開発(ジョーダン,有村)。確率的な情報処理の枠組みで、近似を許した上で高速なストリーム処理を行う。 (A3) 構造列挙手法に基づく超高速実世界ストリーム発見技術の研究開発(有村・ジョーダン)。回候補となる構造を高速にもれなく列挙する構造列挙手法をストリーム処理に拡張する。 (A4) 超高速ストリーム知識発見の理論的基盤の研究(ツォイグマン,有村)。有限オートマトンなどの計算モデルを用いて高速な多ストリーム処理の理論構築を行う。 (B1) プロトタイプシステム構築と予備評価実験.これまでに開発したアルゴリズムを実装して、高速ストリーム処理と大規模並列列挙のためのライブラリを提供し、その性能を実験的に評価する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は,項目(A1) のビット並列技法を用いた超高速実世界ストリーム検索技術の研究開発については,前年度の成果である全オンライン接尾辞木の研究が,系列データアルゴリズムの第一級の雑誌であるAlgorithmicaに掲載され(Takagi他, Algorithmica 2019),SNSデータの大規模解析の基本演算である頻出アイテム発見のための超高速なビット並列アルゴリズムを開発し,応用情報検索分野の第一級の会議であるSPIRE2019で発表した(Kaneta他, SPIRE 2019). 項目(A2) の確率的手法に基づく超高速実世界ストリーム計数技術に関しては,空間ストリームデータ処理に関して, 事後確率最大化に基づくマップマッチング手法ルートグラフの開発(Inakoshi他,IPSJ TOM, 2019) と,極大信頼度正則化領域のマイニング手法をて案した(Inakoshi他, 人工知能学会論文誌, 2019) .項目(A3) の構造列挙手法に基づく超高速実世界ストリーム発見技術については,候補となる構造を高速に列挙する手法として,弦二部グラフ列挙(Kurita他, IWOCA2019) と誘導木再構成問題の高速アルゴリズム(Wasa他, IEICE Trans.2019) を研究開発した.項目(A4) の超高速ストリーム知識発見の理論的基盤の研究については,多ストリーム処理における安全保障に関係する研究として,代数系ZpとZpe上の離散平方根問題の性質について調べた.項目(B1) のプロトタイプシステム構築と予備評価実験では, 木列挙のための大規模並列計算フレームワークmts を開発して,その性能を実験的に評価した(Avis, Charles Jordan, Optimization Methods and Software, 2019) .
|
Strategy for Future Research Activity |
今後の方策として,項目A1の超高速実世界ストリーム検索技術に関しては,開発した頻出アイテム発見アルゴリズムを,オンラインのランダムフォレスト構築などの大規模ストリームデータからの予測モデル構築などの機械学習問題に拡張する.さらに,全オンライン接尾辞木については,空間データストリームへの拡張を行う.項目A2の空間ストリームデータ処理に関しては,構造パターンマイニングの時系列ストリーム処理との融合について研究する.DAG形状の構造パターンであるエピソードの族を階層構造をもつエピソードに拡張し,効率良いマイニングアルゴリズムを開発する.項目(A3) の構造列挙手法に基づく超高速実世界ストリーム発見技術については,列挙で得られる構造属性ストリーム上でメモリ効率よく予測モデルを構築する軽量学習アルゴリズムを開発する.項目B1については,引き続き,各種アルゴリズムを実装し,理論的および実証的な性能評価を行ない,開発にフィードバックする.また,mtsフレームワークを他のグラフ構造の列挙へ拡張方法を研究する.
|
Causes of Carryover |
aaa
|
Research Products
(12 results)