研究概要 |
従来のデータマイニングでは,データ表現に用いられている属性をそのまま使用して知識を発掘してきた.複数の属性が組み合わさって意味を表すような部分構造を構築しながら知識を発掘する手法は,未だに,機械学習技術の盲点となっており,有効な手法が見出されていない.本研究では,マイニング処理において属性構築を同時に行う,オンラインでの有意属性の帰納的構築手法を開発し,人工データや実世界データで性能を検証した.具体的には,情報の一般的な表現法として,グラフ表現を採用し,その中から有意の塊(部分構造)をチャンキングという概念を用いて逐次的に構築し,構築した属性を用いて決定木を構築する方法を提案した.チャンキング過程で重なりのある部分構造を探索できないという最大の問題を仮想チャンキングという概念を導入して回避し全部分グラフの探索が可能であることを示した.また,部分グラフ包含関係の単調性を利用しないため,単調性を利用している他の手法では抽出できない部分グラフを正しく抽出できることも確認した.さらに,探索した部分グラフの数え落としがないことが保証されているため,情報利得など頻度を用いた種々の評価指標に誤差が混入しなくなり,属性構築手法としての信頼性も向上した.部分グラフの探索は決定木構築過程で再帰的に呼ばれオンラインで属性が構築される.単純なチャンキングに比べて,仮想チャンキングを用いることにより,構築される属性の質が向上し,決定木のサイズも.未知データに対する予測能力も大幅に向上した.慢性肝炎データに適用し,特定のパタンを示す複数の検査値の時間変化を一纏まりにして,新しい属性と考えることにより,満足すべき精度で,肝硬変を予測できることを示すことができ,属性構築を内蔵したグラフ構造データ向けの決定木構築手法が開発できたものと考える.
|