研究概要 |
電子シラバスのような大量の電子ドキュメントを自動的に構造化することは情報検索やデータマイニングの重要な課題であり,本研究では帰納学習に基づいてドキュメントを自動分類することに焦点を当てた. 本研究では帰納学習システムへの入力情報として有効に使えるキーワードをTFIDF(Term Frequency Inverse Document Frequency)理論を用いて選択し,キーワード間の関連性も考慮した分類規則を求めるために英語語彙データベースWordNetを利用して,キーワードの上位概念もドキュメントに関する情報として抽出した.そして,電子メールの自動分類を実験対象に,本手法により生成されたデータセットを学習システムに提供し,実験を試みた.個別データとして4名,時系列データとして720通の電子メールに適用した結果,分類精度が向上することが示された. また,従来の方法と違って,ドキュンメントの分類先を既知とした訓練データを必要としない,すなわち,ドキュメントの分類先を全く指定せずに,ドキュメントの分類を可能にする方法を提案した.具体的にはドキュメントを特徴付ける属性(例えば,キーワードなど)の選択と帰納学習を並行的に処理し,帰納学習による分類の整合度の高い属性の組合せを求めた.この組合せがドキュメントの分類先となる.実験結果により,分類先を既知とした分類精度とほぼ同等の精度が得られた.これより,本方法は人の負担をかけずに電子ドキュメントを分類するものと言える.
|