研究概要 |
本年度は,複数の対訳辞書を組み合わせた言語横断検索の手法について,前年度に引き続き研究を行った.具体的には,問合せ言語として日本語,検索対象言語として英語を用いる場合について検討した.問合せの翻訳にはEDR電子化辞書の日英対訳辞書を用い,ディレクトリ型Web検索エンジン(Webディレクトリ)であるYahoo!の日本語版と英語版,およびOpen Directory (dmoz.org)の日本語版と英語版のカテゴリ構造を用いて訳語曖昧性解消を行う手法について研究を行った. 提案手法の有効性を評価するため,国立情報学研究所によって作成されたNTCIR (NII-NACSIS Test Collection for IR Systems)の言語横断情報検索のテストコレクションを用い,辞書のみを用いて問合せを翻訳した場合と,提案手法によって曖昧性を解消した場合の検索性能の比較実験を行った.前年度は,曖昧性解消の際に問合せ中の1単語に対する訳語候補を一つだけ選ぶ方式であったが,本年度は,検索性能の向上のため,複数の訳語候補を検索に用いる方式について検討し,実験を行った.具体的には,訳語候補数を固定する方式,固定の閾値を用いる方式,最大の重みから閾値を算出する方式の3種類の方式について実験を行った.この結果,訳語候補を一つだけ選ぶ方式と比較して,わずかながら検索性能の向上が見られた.また,Webディレクトリをどの程度上位のカテゴリに統合するべきかについても検討を行い,カテゴリを適切なレベルで統合することで,検索性能の向上が見込めることがわかった.
|