2017 Fiscal Year Annual Research Report
実世界知識基盤形成のための次世代半構造マイニング技術の研究
Project/Area Number |
16H01743
|
Research Institution | Hokkaido University |
Principal Investigator |
有村 博紀 北海道大学, 情報科学研究科, 教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
宇野 毅明 国立情報学研究所, 大学共同利用機関等の部局等, 教授 (00302977)
湊 真一 北海道大学, 情報科学研究科, 教授 (10374612)
平田 耕一 九州工業大学, 大学院情報工学研究院, 教授 (20274558)
伊藤 公人 北海道大学, 人獣共通感染症リサーチセンター, 教授 (60396314)
下薗 真一 九州工業大学, 大学院情報工学研究院, 准教授 (70243988)
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 非構造データ / 意味マイニング / 時空間データマイニング / イベントストリーム処理 / 高次元非構造データ検索 / 大規模知識索引 / 知識発見 / ビッグデータ |
Outline of Annual Research Achievements |
本研究では,実世界と情報世界が融合した巨大な情報空間からの知識基盤形成のための次世代半構造マイニング技術の確立を目指す.平成29年度は,次の項目に関して,大規模知識基盤形成システムの技術調査と基盤技術の研究・開発を行った. (1)最適パターン発見を用いた超高速半構造マイニングエンジンの研究開発(有村・宇野・平田).従来のパターン発見手法に基づいて,パターンに時間変化と複合論理演算を許した「意味マイニング」に取り組み,超高速列挙に基づく順序決定木の厳密最適化学習に関する理論的性能保障付き高速アルゴリズムを開発した.(2)時空間情報を用いた半構造データマイニングの研究開発(有村・宇野・平田・下薗).Earth Mover's Distance (EMD)を用いた木構造の近似照合手法を開発した.(3)確率的情報スキーマと半構造データマイニングの結合の研究(喜田・伊藤・有村)ガンマプロセス辺分割モデルに基づく無限関係モデルについて、統計的関係学習手法を開発した.(4)大規模知識基盤形成システムのための知識連係技術の研究開発(伊藤,平田,喜田,有村)知識連携の周辺技術として,高速検索を可能にする文法圧縮に基づいた高効率圧縮手法や,高次元空間における大規模近似検索手法、大規模ネットワークにおける疎な部分構造の列挙アルゴリズムを開発した.(5)大規模知識基盤形成システムのための高速な知識索引技術の研究開発(湊,宇野,有村).ゼロサプレス二分決定グラフ(ZDD)技術に基づいて,大規模非構造データ向けSeqBDDやPiDD等の大規模知識索引を用いた離散構造最適化の研究開発を行った.(6)知識基盤形成支援システムのプロトタイプ構築(全員).開発した知識発見技術を元に,実世界からの知識基盤形成システムのプロトタイプの構築を開始した.各研究項目に関して,理論的な解析を元にさらなる最適化を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
実世界知識基盤形成技術の確立に向けて,現在,研究はおおむね順調に進展している.具体的な進捗状況は,次の通りである.(1)では,広く使われる知識表現の一つである列挙問題に取り組み,順序決定木と呼ばれる部分族に対して,多項式メモリしか使用しない厳密最適化学習アルゴリズムODTを得ている。今年度は、これを高精度の順序決定木の計数やランダム生成に拡張し,さらに、損失項付き経験誤差最小化の高速解法を得た.アイテム集合マイニングにおける統計的に意味があるルールの発見方式を提案し,データマイニング分野のトップレベルの国際会議であるKDD2017で発表した.(2)では,時系列データに対するパターンであるエピソードに対して,統計的有意性を考慮したマイニングアルゴリズムを開発した.最近注目される移動データからの「群れパターン」発見のアルゴリズムの決定木を用いた時系列予測への拡張方式を検討した.さらに,この方式に基づき,パターンの網羅的列挙を行わず,ランダムなトップダウン探索を用いた構造決定木学習アルゴリズムを開発した.(3)では,大規模関係データに関する学習アルゴリズムを研究し,機械学習分野のトップレベルの国際会議IJCAI2017およびNIPS2017で発表した.(4)では,知識連携技術に関して,系列データなどの大規模非構造データの文法圧縮や、文字列ストリームの圧縮索引構築アルゴリズムの開発に成功した.(5)では,効率良い知識索引技術において,知識索引の種々の半構造データと最適化問題への拡張を進めた.(6)で各項目で開発した理論的手法を実際に実装し,プロトタイプ構築のための計算機実験を行うなど,当初の計画どおり,おおむね順調に進展している.
|
Strategy for Future Research Activity |
今後,各項目ごとに次のように研究を推進する予定である.(1)の意味マイニングに関しては,開発中の順序決定木に関する超高速マイニングアルゴリズムを、幅広い知識獲得問題に適用可能にする.とくに,最近、機械学習と人工知能分野で注目されている準最適解列挙に拡張して、効率良いアルゴリズムを構築する.(2)では,(1)で開発した手法を,時間変化を許すパターン族に拡張し,時空間データを扱うための効率よい設計原理を明らかにする.とくに,さらに,トラジェクトリデータ向けの高速知識発見手法と(1)項の順序決定木と融合し、系列の予測と分類へ拡張する。(3)引き続き、これらの手法を,近年発展の著しい統計的に頑健なパターン発見を可能にする統計的実用的で規模耐性の高い実装法を研究開発する.また実際の応用領域での実証実験を行う.(4)知識連係技術では,系列データなどの大規模非構造データの文法圧縮や,多次元非構造データの大規模検索アルゴリズムの開発を一層進める.とくにJSONなどの入れ子構造をもつ非構造データに対して、現代の並列ハードウェアの特性を活用した超高速かつ低メモリ性をもつアルゴリズムを研究開発し,超大規模データ解析への適用方法を確立する.(5)知識索引技術と統計的手法との融合では,大規模知識索引,高速マイニング,知識発見を有機的に連携させて,実世界知識基盤形成の枠組みを明らかにする.(6)半構造マイニングの一般理論の構築に関しては,前年度開発した(1)~(5)項の成果を一般化して,各種の構成演算をもつ離散構造データからのマイニング手法の一般理論を構築する.(6)プロトタイプ構築については,これまでの実装の最適化と,プロトタイプ構築を行い,評価実験を行う.
|
Research Products
(29 results)