本研究では、情報検索システムにおいて従来の単語単位のキーワード索引ではなく、たとえば論文表題や梗概などを構成する文の単語間の係受け関係に着目し、二分木状の構造を持つ索引を用意することを検討する。それにより検索性能を向上し、質問者の意図に一層適合した的確な答えを得るような方式が提案できる。さらにそれを概念の検索に応用することにより、言語を越えた情報検索に適用する方式を実現することを目的としている。 まず、基本的な手法を確立するために、日本語論文表題の形態素解析、表題に用いられる係り受け関係の用語の分析を行った。その結果を受け、(1)インデクスの構造化の手法、(2)検索処理の方式の概要について検討してきた。これを基礎に、本格的な実証用ソフトウェア構築を行うことを意図している。具体的には、大規模なテストコレクションであるNTCIRのデータに対して、表題と梗概について構造化インデクスを作成し、提案手法の有効性を示した。そして、日本語で得られた手法を基礎に、多言語に適応することを考え、英語に対して同様のインデクス構成法を行うための検討を行った。 言語横断検索に関しては、並行して研究を進めてきた関連性の重ね合わせ(RS)モデルによる検索の方が効果的であることが評価結果から出てきたため、主にこれに沿って言語横断検索の性能比較と性能改善の手法を見いだすための実験を進めた。その結果、日英の両言語で良好な性能を発揮できる見込みが得られた。 検索処理のソフトウェアに関しては、言語に左右されない処理部分とそうでない部分に分離して、多言語に対応できるような構造を持ったソフトウェアとして実装を行った。また利用者インターフェースも実装し、デモできるようにした。
|