2002 Fiscal Year Annual Research Report
Project/Area Number |
13680535
|
Research Institution | Musashi Institute of Technology |
Principal Investigator |
兼子 毅 武蔵工業大学, 工学部, 講師 (30233878)
|
Keywords | テキストデータ / 情報検索 / 概念空間 / 対応分析 / クラスター分析 / 自己組織化マップ |
Research Abstract |
従来の研究経過 主に非定型テキストデータを対象とする検索システムに関して研究を進めてきた。広範囲の話題を含む多数の文書群から、所望の内容が記述されている文書群を抜き出してくるシステムのプロトタイプを作成し、一定の検索性能を示すことを明らかにした。しかしながら、いったん検索されて抽出された文書群から、さらに追加キーワードを投入して絞込検索を行なう段階では、作成したプロトタイプシステムでは的確な検索ができないことが明らかになった。 研究の成果及び今後の課題 上記の研究経過から、広範囲の話題を含む多数の文書群からある程度目的の内容に近い文書群を選び出す「スクリーニング」の段階と、さらに追加キーワードを投入することによる「絞込み」の2段階で、それぞれ概念空間を構成し、文書検索や文書の分類を行なうシステムのプロトタイプを作成した。分類方法としては、自己組織化マップを応用したものと、クラスター分析を応用したデンドログラムを提案し、どちらも満足のいく分類を得ることができた。しかしながら、いくつかのケース・スタディで、まったく分類が構成できない場合や、「不自然な」分類になってしまう場合が散見された。まだ理由ははっきりとは判明していないが、一般的な名詞をデータに含めたり外したりすることによって大きく分類が変わってしまうことから、今回のシステムにおいては、投入された文書以外の情報を使っていない、言い換えると「知識」を持たないことが背景にあるように思われる。今後は基本的な単語の意味なども知っている「知識」処理を検討する必要があると思われる。
|