• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

背景知識を考慮した文字列照合に関する研究

研究課題

研究課題/領域番号 17700024
研究機関北海道大学

研究代表者

喜田 拓也  北海道大学, 大学院・情報科学研究科, 助教授 (70343316)

キーワードテキストアルゴリズム / 文字列照合 / オントロジー / 半構造化データ / 情報検索 / 構造付き文書データ / アーク付きテキスト
研究概要

本研究では、オントロジー情報などの背景知識を考慮することで、より知的な文字列照合を行うアルゴリズムの開発を目指している。具体的には、電子的に利用可能な分類階層データベースやシソーラス情報、文章構造といったオントロジー情報を利用して動作する照合アルゴリズムを開発し、それらの統合を行う。また、それ以外のオントロジー情報についても調査を行い、知的検索のための利用を模索する。申請者はこれまでに分類階層情報を考慮した文字列照合アルゴリズムについて取り組み、一つの有効なアルゴリズムを得ている。
本年度は、Arc-annotationと呼ばれる構造が付随したテキストに対する文宇列照合アルゴリズムについて取り組み、効率のよいアルゴリズムを得ることができた。Arc-annotation付きテキストとは、テキスト中の二つの文字間になんらかの関係があるということを指し示すアーク(arc)情報が付随したテキストである。このような構造付きテキストには、たとえば日本語テキストを形態素解析して得られる「かかりうけ」構造を伴ったテキストデータが挙げられる。これに対して文字列照合を行うことができれば、大量の日本語文章群からある特定の構造を持つ文章だけを抽出するといったことができるようになる。また、文章の意味の流れを考慮したキーワード検索に応用できる。Arc-annotation付きテキストのより直接的な動機付けとしては、ゲノム情報処理における転移RNAの構造を考慮したパターン照合がある。
今回、提案したアルゴリズムを実際に実装し、転移RNAを模した擬似データを使って速度評価実験を行ったところ、J.Gramm、J.Guo、R.Niedermeierらによって2002年に提案された手法よりも約2〜5倍以上高速に動作することが判った。

  • 研究成果

    (2件)

すべて 2006 2005

すべて 雑誌論文 (2件)

  • [雑誌論文] Faster Pattern Matching Algorithm for Arc-Annotated Sequences2006

    • 著者名/発表者名
      Takuya Kida
    • 雑誌名

      Proceedings of Dagstuhl Workshop on Federation over the Web LNAI3847

      ページ: 25-39

  • [雑誌論文] Arc-annotation付きテキストに対するパターン照合アルゴリズム2005

    • 著者名/発表者名
      喜田拓也
    • 雑誌名

      FIT情報科学技術レターズ 4

      ページ: 25-28

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi