• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

適合的汎化に基づく情報検索システムの実験的研究

研究課題

研究課題/領域番号 14019002
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関北海道大学

研究代表者

吉岡 真治  北海道大学, 大学院・工学研究科, 助教授 (40290879)

研究分担者 大久保 好章  北海道大学, 大学院・工学研究科, 助教授 (40271639)
原口 誠  北海道大学, 大学院・工学研究科, 教授 (40128450)
研究期間 (年度) 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
3,100千円 (直接経費: 3,100千円)
2002年度: 3,100千円 (直接経費: 3,100千円)
キーワード情報検索 / 電子化辞書 / 概念の汎化 / 検索拡張 / 検索者の意図
研究概要

本研究では、検索者にも理解しやすい概念階層の汎化という考え方を利用して、ユーザの検索意図を明示化すると共に、精度落ちを抑えた情報検索システムを提案している。この概念階層を利用する情報検索システムでは、汎化の対象としてどの様な語を選ぶのかという問題に加え、あらかじめ用意する辞書における概念階層の性質に結果が依存するという問題がある。
本年度は、汎化のための方法論として、適合文書群に共通する概念を利用する方法を検討した。学術論文のアブストラクトを用いたNTCIRや新聞記事を用いたIREXの2つの情報検索のテストコレクションを利用し提案手法のシステムの検索性能への影響を検討した。その結果、提案手法により検索性能が向上することが確認できた。
次に、辞書の性質を議論するために、昨年度までの研究で用いていたEDR電子化辞書に加え、日本語概念語彙体系という異なるタイプのシソーラスを用いた場合の影響に関する分析を行った。検索実験の結果、日本語概念語彙体系を用いた場合に、与えた適合文書へのオーバーフィットの度合いが高いことが確認された。これは、日本語概念語彙体系とEDRが持つ概念カテゴリーの粒度の違いによるものであると考えられる。日本語概念語彙体系とEDRが持つ概念カテゴリーの数を単純に比較すると、EDRは約50000個(専門用語辞書のものを含む)であり、日本語概念語彙体系は約3000である。よって、適合的汎化による情報検索システムで用いるシソーラスは、ある程度、粒度の細かい概念を扱うことができるシソーラスであることが望まれることが確認された。

報告書

(1件)
  • 2002 実績報告書
  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] 竹内 孔一: "語彙概念構造を利用した複合名詞内の係り関係の解析"情報処理学会論文誌. 43巻5号. 1446-1456 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Makoto Haraguchi: "Some Criterions for Selecting the Best Data Abstractions"Lecture Notes in Computer Science. 2281. 156-167 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 吉岡 真治: "適合的汎化に基づく情報検索システムの研究(第1報)-検索語が持つ適合性判定への寄与度の利用"情報処理学会情報学基礎研究会. 2002-Fl-67. 151-158 (2002)

    • 関連する報告書
      2002 実績報告書

URL: 

公開日: 2002-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi