研究課題/領域番号 |
14019002
|
研究機関 | 北海道大学 |
研究代表者 |
吉岡 真治 北海道大学, 大学院・工学研究科, 助教授 (40290879)
|
研究分担者 |
大久保 好章 北海道大学, 大学院・工学研究科, 助教授 (40271639)
原口 誠 北海道大学, 大学院・工学研究科, 教授 (40128450)
|
キーワード | 情報検索 / 電子化辞書 / 概念の汎化 / 検索拡張 / 検索者の意図 |
研究概要 |
本研究では、検索者にも理解しやすい概念階層の汎化という考え方を利用して、ユーザの検索意図を明示化すると共に、精度落ちを抑えた情報検索システムを提案している。この概念階層を利用する情報検索システムでは、汎化の対象としてどの様な語を選ぶのかという問題に加え、あらかじめ用意する辞書における概念階層の性質に結果が依存するという問題がある。 本年度は、汎化のための方法論として、適合文書群に共通する概念を利用する方法を検討した。学術論文のアブストラクトを用いたNTCIRや新聞記事を用いたIREXの2つの情報検索のテストコレクションを利用し提案手法のシステムの検索性能への影響を検討した。その結果、提案手法により検索性能が向上することが確認できた。 次に、辞書の性質を議論するために、昨年度までの研究で用いていたEDR電子化辞書に加え、日本語概念語彙体系という異なるタイプのシソーラスを用いた場合の影響に関する分析を行った。検索実験の結果、日本語概念語彙体系を用いた場合に、与えた適合文書へのオーバーフィットの度合いが高いことが確認された。これは、日本語概念語彙体系とEDRが持つ概念カテゴリーの粒度の違いによるものであると考えられる。日本語概念語彙体系とEDRが持つ概念カテゴリーの数を単純に比較すると、EDRは約50000個(専門用語辞書のものを含む)であり、日本語概念語彙体系は約3000である。よって、適合的汎化による情報検索システムで用いるシソーラスは、ある程度、粒度の細かい概念を扱うことができるシソーラスであることが望まれることが確認された。
|