研究課題/領域番号 |
11680432
|
研究機関 | 国立情報学研究所 |
研究代表者 |
安達 淳 国立情報学研究所, 情報学資源研究センター, センター長 (80143551)
|
研究分担者 |
高須 淳宏 国立情報学研究所, ソフトウェア研究系, 助教授 (90216648)
|
キーワード | 情報検索 / 構造化インデクス / 形態素解析 / テストコレクション / 言語横断検索 / 二分木 / 係り受け |
研究概要 |
本研究では、情報検索システムにおいて従来の単語単位のキーワード索引ではなく、たとえば論文表題や梗概などを構成する文の単語間の係受け関係に着目し、二分木状の構造を持つ索引を用意することを検討する。それにより検索性能を向上し、質問者の意図に一層適合した的確な答えを得るような方式が提案できる。さらにそれを概念の検索に応用することにより、言語を越えた情報検索に適用する方式を実現することを目的としている。 従来の研究で、(1)インデクスの構造化の手法、(2)検索処理の方式の概要について一定の成果をえている。本研究では、これを基礎に、本格的な実証用ソフトウェア構築を行うことを意図している。平成12年度は、前年度に日本語で得られた手法を基礎に、英語に対して同様のインデクス構成法を行うための検討を行った。 英語データに対して、構造化インデクスを作成するための手法について検討し、係受けのカテゴリー分類等が日本語と同様に適応できるかどうかについて調査した。データとしてはTRECのテストコレクションを対象に行う。この作業のために、ステミング等の英語の言語処理環境をSMARTその他関連ソフトウェアを入手して可能性を検討した。日本語依存と英語依存の処理部分の相違などの問題が予想され、これらを解決しつつソフトウェアの方式設計を行う。 日本語と英語に関する処理を比較検討し、言語依存の部分と言語独立の部分を分離し、構造化インデクスの一般理論の構築を試みて現在も進行中である。検索処理のソフトウェアに関しても、同様に多言語に対応できるような構造を持ったソフトウェアとして、再設計と実装を行った。また利用者インターフェースも工夫し、デモできるようにするための作業にも着手した。
|