• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

セマンティックWebのための多言語処理

Research Project

Project/Area Number 15200010
Research InstitutionNara Institute of Science and Technology

Principal Investigator

植村 俊亮  奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)

Co-Investigator(Kenkyū-buntansha) 宮崎 純  奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (40293394)
波多野 賢治  奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
前田 亮  立命館大学, 情報理工学部, 助教授 (20351322)
鈴木 優  立命館大学, 情報理工学部, 助手 (40388111)
天笠 俊之  筑波大学, 計算科学研究センター, 講師 (70314531)
Keywords多言語処理 / 言語横断検索 / データベース / 情報検索 / ディレクトリ
Research Abstract

本年度は、Yahooに代表される複数の言語版のあるWebディレクトリを利用し、その各カテゴリに登録されているWebページ中から対訳関係にある単語を自動的に抽出し、検索語を補間する方式を実装し評価した。一般に対訳関係は一対一ではなく、一対多となる。一対多の関係の場合、一つの検索語に対してどの程度まで対訳語を補間すれば検索効率が向上するかという問題に関して、対訳語数による切捨法、対訳語の単語重みによる切捨法を提案し、それぞれの比較検討を行なった。その結果、対訳語数が2の場合に最も検索精度が向上することが分かったが、3以上の場合に急激に精度が落ちる問題点も明らかになった。一方、対訳語の単語重みによる切捨法に関しては、二通りの手法が考えられ、固定の単語重みで切り捨てる方法と、訳語の最大の重み値に対して相対的な重みで切り捨てる方法を比較した。前者は、わずかな閾値の差により急激に精度が落ちる可能性があるが、後者は、閾値の設定において、急激な精度の悪化はなく、最大の重みの訳語の15分の1程度の重みを持つ語までを検索語として使用すればよいことが分かった。
以上に加えて、単に各文書ごとの検索だけでなく、同一著者の同一内容の文書をクラスタリングすることにより、ユーザが要求する文書を効率よく検索する方法についても検討を行なった。通常、Webページでは、各ページの著者には詳細・非詳細のコンテンツがあり、単なるPage Rankアルゴリズムの適用では、ページのクォリティに関係なくランキングされてしまい、ユーザが望むページがランキング順に上位にくるとは限らない。しかし、各著者、各話題ごとにページをクラスタリングし、クラスタに対してPage Rankを適用することにより、ユーザが望むページを含むクラスタが上位にランクされることが期待できる。この手法を、NTCIR-4 NW100G・01のテストコレクションを用いて評価したところ、多値適合レベルの精度評価指標WRRならびに再現率評価指標DCGの両方において、既存のページ単位のPage Rankよりも性能が良いことを示した。本手法は、クラスタリングに特徴ベクトルモデルを利用し統計的に処理しているが、セマンティックWebを利用して、精緻なクラスタリングを行えば、さらに精度のよいWebページの検索が可能となると考えられる。

  • Research Products

    (6 results)

All 2006 2005

All Journal Article (6 results)

  • [Journal Article] XML文書検索システムにおける文書内容の統計量を利用した検索対象部分文書の決定2006

    • Author(s)
      波多野賢治, 絹谷弘子, 吉川正俊, 植村俊亮
    • Journal Title

      電子情報通信学会論文誌 J89-D-I・3

      Pages: 422-431

  • [Journal Article] 文書集合単位のリンク解析を用いたWebページスコアリング2006

    • Author(s)
      中窪仁, 中島伸介, 波多野賢治, 宮崎純, 植村俊亮
    • Journal Title

      電子情報通信学会第17回データ工学ワークショップ論文集

      Pages: 3B-i4

  • [Journal Article] Query Disambiguation for Cross-Language Information Retrieval Using Web Directories2005

    • Author(s)
      Fuminori Kimura, Akira Maeda, Jun Miyazaki, Shunsuke Uemura
    • Journal Title

      Proc. of International Workshop on Challenges in Web Information Retrieval and Integration (WIRI 2005)

  • [Journal Article] Analyzing the Properties of XML Fragments Decomposed from the INEX Document Collection2005

    • Author(s)
      Kenji Hatano, Hiroko Kinutani, Toshiyuki Amagasa, Yasuhiro Mori, Masatoshi Yoshikawa, Shunsuke Uemura
    • Journal Title

      Advances in XML Information Retrieval, Lecture Notes in Computer Science 3493

      Pages: 168-182

  • [Journal Article] A Normalization Method of Relevance Scores for Combining Ranked Result Lists2005

    • Author(s)
      Yu Suzuki, Kenji Hatano, Masatoshi Yoshikawa, Shunsuke Uemura
    • Journal Title

      Proc. of the 8th International Conference on Asian Digital Libraries (ICADL2005)

  • [Journal Article] アクセス頻度を考慮したXML文書分割方式の提案2005

    • Author(s)
      中尾伸章, 天笠俊之, 的野晃整, 植村俊亮
    • Journal Title

      日本データベース学会 Letters 4・1

      Pages: 113-116

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi