• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2002 年度 実績報告書

適合的汎化に基づく情報検索システムの実験的研究

研究課題

研究課題/領域番号 14019002
研究機関北海道大学

研究代表者

吉岡 真治  北海道大学, 大学院・工学研究科, 助教授 (40290879)

研究分担者 大久保 好章  北海道大学, 大学院・工学研究科, 助教授 (40271639)
原口 誠  北海道大学, 大学院・工学研究科, 教授 (40128450)
キーワード情報検索 / 電子化辞書 / 概念の汎化 / 検索拡張 / 検索者の意図
研究概要

本研究では、検索者にも理解しやすい概念階層の汎化という考え方を利用して、ユーザの検索意図を明示化すると共に、精度落ちを抑えた情報検索システムを提案している。この概念階層を利用する情報検索システムでは、汎化の対象としてどの様な語を選ぶのかという問題に加え、あらかじめ用意する辞書における概念階層の性質に結果が依存するという問題がある。
本年度は、汎化のための方法論として、適合文書群に共通する概念を利用する方法を検討した。学術論文のアブストラクトを用いたNTCIRや新聞記事を用いたIREXの2つの情報検索のテストコレクションを利用し提案手法のシステムの検索性能への影響を検討した。その結果、提案手法により検索性能が向上することが確認できた。
次に、辞書の性質を議論するために、昨年度までの研究で用いていたEDR電子化辞書に加え、日本語概念語彙体系という異なるタイプのシソーラスを用いた場合の影響に関する分析を行った。検索実験の結果、日本語概念語彙体系を用いた場合に、与えた適合文書へのオーバーフィットの度合いが高いことが確認された。これは、日本語概念語彙体系とEDRが持つ概念カテゴリーの粒度の違いによるものであると考えられる。日本語概念語彙体系とEDRが持つ概念カテゴリーの数を単純に比較すると、EDRは約50000個(専門用語辞書のものを含む)であり、日本語概念語彙体系は約3000である。よって、適合的汎化による情報検索システムで用いるシソーラスは、ある程度、粒度の細かい概念を扱うことができるシソーラスであることが望まれることが確認された。

  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] 竹内 孔一: "語彙概念構造を利用した複合名詞内の係り関係の解析"情報処理学会論文誌. 43巻5号. 1446-1456 (2002)

  • [文献書誌] Makoto Haraguchi: "Some Criterions for Selecting the Best Data Abstractions"Lecture Notes in Computer Science. 2281. 156-167 (2002)

  • [文献書誌] 吉岡 真治: "適合的汎化に基づく情報検索システムの研究(第1報)-検索語が持つ適合性判定への寄与度の利用"情報処理学会情報学基礎研究会. 2002-Fl-67. 151-158 (2002)

URL: 

公開日: 2004-04-07   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi