情報検索では、従来は文字列あるいは単語をキーとして、AND/OR条件や近接演算による検索条件を用いた検索が行われてきた。本研究では、さらに係り受け共起関係をも検索条件として扱える全文検索システムの構築を目的とし、そのための基礎となる日本語文の文節解析、係り受け解析方式についての研究と、それを用いた検索システムについての研究を行った。解析システムについては、PC上の日本語文解析システムIBUKIを開発した。解析精度は現在、文節解析が99%以上、係り受け解析が90%程度である。現在さらなる精度向上を目指して、複合語の解析法についてはオートマトンを用いる方法での検討を進めており、また文節解析法に関しては、単語間の接続規則ないし接続確率に基づく従来の方法に換えて、基本的に(ほとんど)全ての機能語列を辞書に登録してしまう長単位機能語辞書による全く新しい考え方による方法の可能性について研究を進めている。検索システムについては、新聞記事、特許公報、和英辞典等を対象に、係り受け条件をも指定できるシステムを試作した。近接演算を用いた場合と係り受け関係を用いた場合の比較では、係り受け関係を用いる場合の適合率が、おおむね84%から96%に向上するという実験結果を得ている。
|