研究概要 |
近年,高速なネットワークの発達を背景に,ウェブページに代表される構造化テキストテータの利用が急速に進みつつある.本研究では,ウェブデータなどの構造化データに対して,それらの機能や構造を説明する規則やパターンをグラフや木で表現するために,機械学習理論に基づいて,パターンの発見や照合などを行うための効率の良いアルゴリズムの設計とその計算量理論的な評価を行う.さらに,実際にXML/HTMLデータなどを対象に構造化データからの高速なデータマイニングシステムの開発を行う.これらのことを目標に,本年は次の結果を得た. (1)活発に研究されているグラフ構造データのひとつにXML/HTMLデータなどの木構造データがある.木構造データから有用な知識を発見するために,我々は順序項木と呼ばれる木構造パターンを提案した.順序項木は順序木の内部にいくつもの変数を持ち,その変数はサイズ可変である.本年はこの順序項木の効率的な学習可能性を,学習理論の代表的な2つのモデルである帰納推論と質問学習を用いて論じ,順序項木に現れる個々の変数のサイズが任意である場合には正データからの多項式時間帰納推論可能であること,個々の変数のサイズが2である場合で無限個のラベルを持つ場合は多項式時間質問学習可能であることを示した. (2)与えられたデータに現れる特徴をうまく表現するために様々な知識表現が提案されている.ニューラルネットやSVMはその代表的なものである.一方でどの知識表現が与えられたデータに適しているかを判断する基準は十分に与えられていない.我々は知識表現間の相対的な表現力をデータに依存しないように有向グラフ(仮説クラスアトラス)で描く方法を提案し,与えられたデータに適した知識表現を効率良く見出す方向づけを行った.
|