2001 Fiscal Year Annual Research Report
Project/Area Number |
13680535
|
Research Institution | Musashi Institute of Technology |
Principal Investigator |
兼子 毅 武蔵工業大学, 工学部, 講師 (30233878)
|
Keywords | 文献検索 / 多次元尺度構成 / 意味空間 |
Research Abstract |
様々な話題に関する文書群から、比較的専門的な単語だけを抽出し、それらの各文書における出現頻度をべースとして多次元尺度構成を行うことにより、単語や文書間の距離を計算できる多次元空間を構成することができる。この空間は、広い話題の中から特定の話題に関する文書を検索する際には有効な距離尺度を与えてくれる。しかしながら、ある程度限定された話題の中から、言い換えると、既にある程度の検索が完了した段階で、さらに特定の話題に関する文書を検索しようと意図すると、必ずしも良好な結果が得られない。そこで本年度は、特定のキーワードによって検索された複数の文書から、再度多次元尺度構成を行うことによって、絞込検索に有用な空間の構成を試みた。 尺度構成の出発行列として、初期検索により入力キーワードから一定の距離範囲内にある文書に関する列だけを抜き出した行列、それらの文書に含まれるキーワード群に一定の重みを付けた行列、などについて試行した。 再検索の対象となる文書に関する列だけからなる行列を出発行列としたときに、比較的良好な結果が得られている。しかしながら、絞込検索の良否は出発行列の構成に敏感であり、文書群の選択によって多次元尺度構成法による空間が大きく変化してしまうことが分かった。 この空間構成のための文書群選択の指針はまだ得られていないのが現状であり、今後の課題として残っている。
|