2009 Fiscal Year Annual Research Report
Project/Area Number |
21700273
|
Research Institution | Gunma University |
Principal Investigator |
安川 美智子 Gunma University, 大学院・工学研究科, 助教 (70361384)
|
Keywords | 情報検索 / 情報組織化 / 自然言語処理 / 図書館情報学 / 分類型検索 / 言語横断検索 / アクセシビリティ / ユーザビリティ |
Research Abstract |
本研究では検索語の関連語を用いた分類型検索システムの開発を目的とし、特に実用的な検索性能を持つ、多言語対応の分類型検索システムを開発することを主たる目標としている。分類型検索とは、文書を分類することによってユーザビリティを向上する情報検索技術である。従来から、文書を特徴量の類似性により分類する試みがなされ、小規模な文書群など、ノイズがほとんど含まれない文書群では、ある程度の実用性が認められてきた。しかしながら、多様なトピックを含む大規模な文書群には分類の精度を悪化させる不要な特徴量が多く含まれる。このため、文書群に含まれる不要な特徴量を効果的に除去し、ユーザが一瞥して理解できるような、分かりやすい分類提示を行う情報検索技術の開発が早急な課題となっている。本研究において分類型検索システムを多言語対応に拡張し、日本語以外の言語においても提案手法が有用であることを明らかにできれば、開発システムは国内外の多数のユーザに利用され得る。本年度は、文書分類型システムのプロトタイプを拡張し、単語の文字列長を考慮した分類型検索を提案した。また、日本語と英語の地図情報検索を目的とした関連語による分類型検索システムの検索性能の評価を行った。提案法により携帯電話などの小さな端末でも表示画面を有効活用した分類結果の提示により、効果的かつ効率的に地図情報を検索できることが確認できた。また本年度は、日本語と英語以外の他の言語に対応するための準備としてマレー語のステマーを開発した。開発したステマーは、マレー語の語幹と派生語に対する過剰な接辞処理を抑制するため語幹辞書と派生語辞書を参照する。開発したステマーを、マレー語の文書自動分類に応用し、過剰な接辞処理が効果的に抑制されていることを確認した。
|
Research Products
(2 results)