2005 Fiscal Year Annual Research Report
Project/Area Number |
15200010
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
植村 俊亮 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)
|
Co-Investigator(Kenkyū-buntansha) |
宮崎 純 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (40293394)
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
前田 亮 立命館大学, 情報理工学部, 助教授 (20351322)
鈴木 優 立命館大学, 情報理工学部, 助手 (40388111)
天笠 俊之 筑波大学, 計算科学研究センター, 講師 (70314531)
|
Keywords | 多言語処理 / 言語横断検索 / データベース / 情報検索 / ディレクトリ |
Research Abstract |
本年度は、Yahooに代表される複数の言語版のあるWebディレクトリを利用し、その各カテゴリに登録されているWebページ中から対訳関係にある単語を自動的に抽出し、検索語を補間する方式を実装し評価した。一般に対訳関係は一対一ではなく、一対多となる。一対多の関係の場合、一つの検索語に対してどの程度まで対訳語を補間すれば検索効率が向上するかという問題に関して、対訳語数による切捨法、対訳語の単語重みによる切捨法を提案し、それぞれの比較検討を行なった。その結果、対訳語数が2の場合に最も検索精度が向上することが分かったが、3以上の場合に急激に精度が落ちる問題点も明らかになった。一方、対訳語の単語重みによる切捨法に関しては、二通りの手法が考えられ、固定の単語重みで切り捨てる方法と、訳語の最大の重み値に対して相対的な重みで切り捨てる方法を比較した。前者は、わずかな閾値の差により急激に精度が落ちる可能性があるが、後者は、閾値の設定において、急激な精度の悪化はなく、最大の重みの訳語の15分の1程度の重みを持つ語までを検索語として使用すればよいことが分かった。 以上に加えて、単に各文書ごとの検索だけでなく、同一著者の同一内容の文書をクラスタリングすることにより、ユーザが要求する文書を効率よく検索する方法についても検討を行なった。通常、Webページでは、各ページの著者には詳細・非詳細のコンテンツがあり、単なるPage Rankアルゴリズムの適用では、ページのクォリティに関係なくランキングされてしまい、ユーザが望むページがランキング順に上位にくるとは限らない。しかし、各著者、各話題ごとにページをクラスタリングし、クラスタに対してPage Rankを適用することにより、ユーザが望むページを含むクラスタが上位にランクされることが期待できる。この手法を、NTCIR-4 NW100G・01のテストコレクションを用いて評価したところ、多値適合レベルの精度評価指標WRRならびに再現率評価指標DCGの両方において、既存のページ単位のPage Rankよりも性能が良いことを示した。本手法は、クラスタリングに特徴ベクトルモデルを利用し統計的に処理しているが、セマンティックWebを利用して、精緻なクラスタリングを行えば、さらに精度のよいWebページの検索が可能となると考えられる。
|
Research Products
(6 results)