研究概要 |
本研究では最大合意問題とよばれる規則獲得の問題を発展させ,例からの規則抽出一般に適用する枠組みを提案した.そして効率のよい近似アルゴリズムを設計するための理論構築を行い,さらに実用性を確かめるためのプロトタイピングを行った.具体的には,エントロピー関数など様々な評価関数を使用できるよう拡張した.アプリケーション面では特に,ネットワーク上のウェブのソースファイル,SGMLファイルなど,従来のデータマイニング手法が苦手とする弱構造の大規模データベースヘの応用を行った. まず最大合意問題の評価関数をより一般に拡張し,例の分類精度をエントロピー,Giniインデックスなどを使って評価する方法を考察した.そして高速なアルゴリズムを設計し,さらにその実装評価を行った.現実の要求に近づけた状況で,メモリやディスクスペースを効果的に使用する技術とアルゴリズムとの親和性を,実験的にも検証した.特に,弱い構造,あるいは疑構造しか仮定できないテキストデータベースに対して,レコードの構造や登録項目(アイテム)をあらかじめ固定して想定する必要のない,入力に対して動的にレコードの処理や登録項目の抽出を行うシステムを構築した.その成果として,現実のテキストデータベースなどを対象とした知識抽出システムのプロトタイピングを行い,最大合意問題に基づくシステムの能力と実用上の問題点を明らかにした.
|