2016 Fiscal Year Annual Research Report
実世界知識基盤形成のための次世代半構造マイニング技術の研究
Project/Area Number |
16H01743
|
Research Institution | Hokkaido University |
Principal Investigator |
有村 博紀 北海道大学, 情報科学研究科, 教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
湊 真一 北海道大学, 情報科学研究科, 教授 (10374612)
平田 耕一 九州工業大学, 大学院情報工学研究院, 教授 (20274558)
伊藤 公人 北海道大学, 人獣共通感染症リサーチセンター, 教授 (60396314)
下薗 真一 九州工業大学, 大学院情報工学研究院, 准教授 (70243988)
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 非構造データ / 意味マイニング / 時空間データマイニング / イベントストリーム処理 / 高次元非構造データ検索 / 大規模知識索引 / 知識発見 / ビッグデータ |
Outline of Annual Research Achievements |
本研究では,実世界と情報世界が融合した巨大な情報空間からの知識基盤形成のための次世代半構造マイニング技術の確立を目指す.平成28年度は,次の項目に関して,大規模知識基盤形成システムの技術調査と基盤技術の研究・開発を行った. (1)最適パターン発見を用いた超高速半構造マイニングエンジンの研究開発(有村・宇野・平田).従来のパターン発見手法に基づいて,パターンに時間変化と複合論理演算を許した「意味マイニング」に取り組み,超高速列挙に基づく順序決定木の厳密最適化学習に関する理論的性能保障付き高速アルゴリズムを開発した.(2)時空間情報を用いた半構造データマイニングの研究開発(有村・宇野・平田・下薗).群れパターンと点集合パターンなど,高次元時空間パターンに対する多項式遅延・領域の高速なパターンマイニングとパターン照合手法をを開発した.(3)確率的情報スキーマと半構造データマイニングの結合の研究(喜田・伊藤・有村)無限関係モデルを拡張して,オブジェクトの関与度を扱える統計的関係マイニング手法を開発した.(4)大規模知識基盤形成システムのための知識連係技術の研究開発(伊藤,平田,喜田,有村)知識連携の周辺技術として,高速検索を可能にする文法圧縮に基づいた高効率圧縮手法や,高次元空間における大規模近似検索手法を開発した.(5)大規模知識基盤形成システムのための高速な知識索引技術の研究開発(湊,宇野,有村).ゼロサプレス二分決定グラフ(ZDD)技術に基づいて,大規模非構造データ向けSeqBDDやPiDD等の大規模知識索引を用いた離散構造最適化の研究開発を行った.(6)知識基盤形成支援システムのプロトタイプ構築(全員).開発した知識発見技術を元に,実世界からの知識基盤形成システムのプロトタイプの構築を開始した.各研究項目に関して,随時,理論的な解析を元にさらなる最適化を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
実世界知識基盤形成技術の確立に向けて,現在,研究はおおむね順調に進展している.具体的な進捗状況は,次の通りである.(1)では,最も広く用いられる知識表現の一つである決定木の列挙問題に取り組み,従来の指数的メモリ手法を大幅に改善して,順序決定木と呼ばれる部分族に対して,多項式メモリ列挙に関する理論的手法を開発し,これに基づいてこの族に対する厳密最適化学習アルゴリズムを得た(第102回SIG-FPAI, DEIM2017).これは,表現力豊かな表現族である決定木の部分族に関して列挙に基づく網羅的なマイニングが可能になることを意味しており,本課題の今後の他の項目の研究すべての土台となる重要な成果である.(2)では,最近注目される移動データからの「群れパターン」発見の多項式遅延・領域の閉パターン発見アルゴリズムについて,より一般的なイベント時系列へ拡張するための検討を行った.半構造マイニング技術を3次元連続空間の点集合マッチングに適用し,平均二乗和距離(RMSD)に関して高速なアルゴリズムの開発に成功した.前者の研究に関して,先に出版した論文が情報処理学会論文賞を受賞し,後者の研究は,2016年度 情報処理学会山下記念賞と情報処理学会第79回全国大会学生奨励賞を受賞した.(3)では,大規模関係データに関する学習アルゴリズムを研究し,国際会議で発表した.(4)では,知識連携技術に関して,系列データなどの大規模非構造データの文法圧縮や,多次元非構造データの大規模検索,複数の文字列ストリームからのオンライン索引構築のアルゴリズムの開発に成功している.(5)では,効率良い知識索引技術において,知識索引の種々の半構造データと最適化問題への拡張を進めた.(6)で各項目で開発した理論的手法を実際に実装し,プロトタイプ構築のための計算機実験を行うなど,当初の計画どおり,おおむね順調に進展している.
|
Strategy for Future Research Activity |
今後,各項目ごとに次のように研究を推進する予定である.(1)の意味マイニングに関しては,今年度開発した順序決定木に関する超高速マイニングアルゴリズムを,各種のデータ構造やスコア関数に拡張し,幅広い知識獲得問題に適用可能にする.とくに,今年度の成果であるただ一つの最適決定木の計算拡張し,トップ-K決定木や,精度と制約を満たす決定木の計数問題,信頼度計算問題の効率良いアルゴリズムを追求する.(2)では,(1)で開発した手法を,論理的な演算子だけでなく,連接や滑り窓付き合成のような時間演算に拡張し,とくに複合エピソード族等の時間変化を許すパターン族に拡張し,時空間データを扱うための効率よい設計原理を明らかにする.とくに,さらに,トラジェクトリデータ向けの高速知識発見手法をさらに追及し,(3)同時に,これらの手法を,近年発展の著しい統計的に頑健なパターン発見を可能にする統計的実用的で規模耐性の高い実装法を研究開発する.(4)知識連係技術では,系列データなどの大規模非構造データの文法圧縮や,多次元非構造データの大規模検索アルゴリズムの開発を一層進める.さらに,現代の並列ハードウェアの特性を活用した超高速かつ低メモリ性をもつアルゴリズム技法を開発し,開発した技法とつなげることで,超大規模データへの適用方法を確立する.(5)知識索引技術と統計的手法との融合では,大規模知識索引,高速マイニング,知識発見を有機的に連携させて,実世界知識基盤形成の枠組みを明らかにする.(6)半構造マイニングの一般理論の構築に関しては,前年度開発した(1)~(5)項の成果を一般化して,各種の構成演算をもつ離散構造データからのマイニング手法の一般理論を構築する.(6)プロトタイプ構築については,これまでの実装の最適化と,プロトタイプ構築を行い,評価実験を行う.
|
Research Products
(26 results)