• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

大規模半構造データからの高速知識発見システムの開発

研究課題

研究課題/領域番号 17200011
研究機関株式会社富士通研究所

研究代表者

岡本 青史  株式会社富士通研究所, ナレッジ研究センター, 主任研究員 (90399717)

研究分担者 有川 節夫  九州大学, 理事・副学長(特任教授) (40037221)
竹田 正幸  九州大学, 大学院・システム情報科学研究院, 教授 (50216909)
篠原 歩  東北大学, 大学院・情報科学研究科, 教授 (00226151)
喜田 拓也  北海道大学, 大学院・情報科学研究科, 助教授 (70343316)
坂本 比呂志  九州工業大学, 情報工学部, 助教授 (50315123)
キーワード半構造データ / XML / 知識発見 / パターン発見 / パターン照合 / 圧縮 / 平滑化解析
研究概要

【知識発見システム基盤】
パスプルーニングによる決定性有限オートマトンの構築手法を提案し、高速かつ省メモリのXQuery処理機構を開発。市販のXML DBMSとの比較実験により、圧倒的な処理性能の優位性を示した。また、高速なXPath処理手法を開発。逆算術符号化にノード間の先祖子孫関係を判定可能な範囲ラベルを導入することで複雑な問合せ処理を可能にし、既存手法と比較して数十から百倍の高速化を達成できることを示した。
【パターン発見】
VLDCパターン族に対する枝刈手法の効果を詳細に調べ、アルファベットサイズの増大に対し実用時間処理が可能であることを示した。また、最適弁別パターン発見問題を一般化し、文字列とそれに関連付けられた数値属性値との対の集合から最適パターンを発見する問題に取り組み、接尾辞木に基づく効率的アルゴリズムの開発に成功。
【パターン照合】
正則生垣と呼ばれるパターン木族に対する効率的な木パターン照合アルゴリズムを開発。また、Arc-annotationと呼ばれる構造が付随したテキストに対する文字列照合問題に取り組み、効率の良いアルゴリズムを開発した。さらに、接尾辞木のオンライン線形時間構築アルゴリズムを示し、10余年もの未解決問題を解決。
BPE圧縮データ上のパターン照合では、正規表現拡張に取り組み、効率的なアルゴリズムを開発。また、データ追加時の文法変更が不要な日本語テキストに対するBPE圧縮を開発した。
【平滑化解析】
平均時と最悪時の振る舞いのギャップを説明する新しい理論的枠組みである平滑化解析を用いて、文字列照合アルゴリズムの計算量解析を行った。テキスト長をn、パターン文字列長をmとすると、その実行時間は最悪時にはO(mn)であるが、ランダム文字列に対する平均時にはO(n)であることに着目し、文字列の摂動モデルを定式化して、実行時間を厳密に解析することに成功。

  • 研究成果

    (15件)

すべて 2006 2005

すべて 雑誌論文 (15件)

  • [雑誌論文] On-line Linear-time Construction of Word Suffix Trees2006

    • 著者名/発表者名
      Shunsuke Inenaga 他1名
    • 雑誌名

      Lecture Notes in Computer Science (In Proc. of the 17th Annual Symposium on Combinatorial Pattern Matching) (受理印刷中)

  • [雑誌論文] Faster Pattern Matching Algorithm for Arc-Annotated Sequences. Proceedings of Dagstuhl Workshop on Federation over the Web2006

    • 著者名/発表者名
      Takuya Kida
    • 雑誌名

      Lecture Notes in Artificial Intelligence 3847

      ページ: 25-39

  • [雑誌論文] パスプルーニングによる決定性有限オートマトンを用いたXQuery処理の提案2006

    • 著者名/発表者名
      石野 明(他1名)
    • 雑誌名

      DBSJ Letters Vol.4 No.4

      ページ: 17-20

  • [雑誌論文] 医薬品の薬名類似度を評価するための新規指標の構築とその評価2006

    • 著者名/発表者名
      大谷 壽一(他3名)
    • 雑誌名

      薬学雑誌 (受理印刷中)

  • [雑誌論文] Practical Algorithms for Pattern Based Linear Regression2005

    • 著者名/発表者名
      Hideo Bannai 他3名
    • 雑誌名

      Lecture Notes in Artificial Intelligence (In Proc. of the 8th International Conference on Discovery Science) 3735

      ページ: 44-46

  • [雑誌論文] A Bit-Parallel Tree Matching Algorithm for Patterns with Horizontal VLDC's2005

    • 著者名/発表者名
      Hisashi Tsuji他2名
    • 雑誌名

      Lecture Notes in Computer Science(In Proc. of the 12th International Conference on String Processing and Information Retrieval) 3772

      ページ: 388-398

  • [雑誌論文] A Fully Compressed Pattern Matching Algorithm for Simple Collage Systems2005

    • 著者名/発表者名
      Shunsuke Inenaga 他2名
    • 雑誌名

      International Journal of Fundations of Computer Science Vol.16 No.6

      ページ: 1155-1166

  • [雑誌論文] The Size of Subsequence Automaton2005

    • 著者名/発表者名
      Zdenek Tronicek 他1名
    • 雑誌名

      Theoretical Computer Science Vol.341 Issue 1-3

      ページ: 379-384

  • [雑誌論文] Fully Incremental LCS Computation2005

    • 著者名/発表者名
      Yusuke Ishida 他3名
    • 雑誌名

      Lecture Notes in Computer Science (In Proc. of the 15th International Symposium of Fundamentals of Computation Theory) 3623

      ページ: 563-574

  • [雑誌論文] New Bit-Parallel Indel-Distance Algorithm2005

    • 著者名/発表者名
      Heikki Hyyro 他2名
    • 雑誌名

      Lecture Notes in Computer Science (In Proc. of the 4th International Workshop on Efficient and Experimental Algorithms) 3503

      ページ: 380-390

  • [雑誌論文] A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression,2005

    • 著者名/発表者名
      Hiroshi Sakamoto
    • 雑誌名

      Journal of Discrete of Algorithm Vol.3

      ページ: 416-430

  • [雑誌論文] A Simple Extension of Queriable Compression for XML Data2005

    • 著者名/発表者名
      Tetsuya Maita (他1名)
    • 雑誌名

      In Proc. of the 2005 International Conference on Active Media Technology

      ページ: 91-95

  • [雑誌論文] 漸増的最長共通部分列問題2005

    • 著者名/発表者名
      石田 祐介(他3名)
    • 雑誌名

      日本応用数理学会2005年度年会 講演予稿集

      ページ: 328-329

  • [雑誌論文] Arc-annotation付きテキストに対するパタ-ン照合アルゴリズム2005

    • 著者名/発表者名
      喜田 拓也
    • 雑誌名

      第4回情報科学技術フォーラム(FIT2005) LA-007

      ページ: 25-28

  • [雑誌論文] 算術符号化を利用したXMLデータへの高速な問い合わせ処理の改良2005

    • 著者名/発表者名
      舞田哲哉(他1名)
    • 雑誌名

      電子情報通信学会第17回データ工学ワークショップ(DEWS2006)

      ページ: 7B-O4

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi