本研究は、情報検索システムにおいて従来の単語単位のキーワード索引ではなく、たとえば論文表題や梗概などを構成する文の単語間の係受け関係に着目し、二分木状の構造を持つ索引を用意することによって高い検索性能を実現しようとする研究である。質問者の意図に適合した的確な答えを得るような方式が提案できる可能性あるに加え、さらに概念の検索に応用することにより、言語を越えた情報検索に適用する方式を実現することを目的としている。 我々は、現在までに提案する手法の基礎となる、日本語論文表題の形態素解析、表題に用いられる係受け関係の用語の分析等の研究を行っており、インデクスの構造化の手法について一定の成果をえている。本研究では、これを基礎に、本格的な実証用ソフトウェア構築を行うことを意図している。平成11年度は日本語梗概を対象とした実用的なインデックス構成法とソフトウェアの実装設計を行った。 日本語の学術文献の表題と梗概を対象とした形態素解析を行い、係受け関係の類形化を行ってきたが、これを継続してより大規模に実施した。対象とするデータは学術情報センターの作成したNTCIR-1を使用した。構造化インデクスの一般的な構成方法、日本語依存の処理部分、一単語のインデクスとの両立性を確保するための方法、処理の高速化を考慮した蓄積方法について検討し、ソフトウェアの実現を行って成果を得た。 来年度には、言語独立な処理の理論と実験、情報検索ソフトウェア実装等の作業を行うことを計画し、第三年目は性能向上のためのデータ整備と成果のまとめ・発表を行う予定である。
|