研究概要 |
従来の情報検索システムでは,検索対象となる文書と検索要求とを重み付きのキーワードベクトルで表現し,余弦を求めることで関連性を判定するベクトル空間モデルを用いることが多い.通常,ベクトルの各要素の重みの計算には出現回数を基にした統計量を用いるが,このような表層的な情報のみを利用した手法では,関連性が低い文書も検索してしまうという問題が生ずる.今年度は,従来の手法によって検索された文書集合を対象とし,その中から自然言語処理技術を用いて不適切な文書を排除する手法について研究をおこなった.具体的には,文書中の動詞,格要素(名詞,助詞)からなる格フレームに注目し,格フレームと検索要求との関連性を求めることによって文書と検索要求との関連性を判定する.格フレームを利用することで,文書の構造的な情報を扱うことが可能となり,キーワードのみの集合に比べて精密に文書の内容を把握することが可能となる.初期検索によって検索された文書集合から,格フレームと検索要求との関連性の計算する.関連性の判定には,格フレームがどの程度検索要求に対して特徴的であるかを示す重要度という尺度を用いる.格フレームに対して直接重要度をめることは難しいため,動詞,格要素それぞれに重要度を求め,それらを用いて格フレーム重要度を求める.また類似,包含関係にある格フレーム間では,類似性に応じて相互に重要度を修正することにより,特徴的な格フレームの判定を容易にした.格フレームの類似性の判定には動詞,格要素それぞれに対し,シソ-ラスを用いて求められる類似度と呼ばれる尺度を導入した.このようにして求めた格フレームの重要度を用い,関連性の高い文書を判定する.約5,000文書からなる情報検索システム評価用のテストコレクションを用いて本手法を評価した結果,初期検索によって関連文書がある程度絞り込まれている場合には,従来法と比較して本手法が有効であることがわかった.
|