2006 Fiscal Year Annual Research Report

文字列学理論に基づいた高速知識発見システムの開発に関する基盤研究

Research Project

Project/Area Number	05J05846
Research Institution	Kyushu University
Principal Investigator	稲永俊介九州大学, 大学院システム情報科学研究院, 特別研究員(PD)
Keywords	文字列照合 / 情報検索 / 発見科学 / データ圧縮
Research Abstract	文字列学理論に基づいた高速知識発見システムの開発に関する基盤研究として,本年度は1)データ圧縮,2)索引構造,3)知識発見,に関する研究を行った. 1)データ圧縮に関する研究は,1970年代から今日まで盛んに行われている.本研究では,長さ優先置換法と呼ばれるデータ圧縮技法に対し,線形時間・領域で動作するアルゴリズムを提案した.また,この技法を改良し,より高い圧縮率を実現するアルゴリズムを与えた.この改良版アルゴリズムも線形時間・領域で動作する.さらに,長さ優先置換法と頻度優先置換法の比較実験を行い,データによっては長さ優先置換法がより優れていることを示した. 2)1973年にWeinerによって提案された接尾辞木をはじめとして,文字列データに対する様々な索引構造が提案されている,本研究では,疎接尾辞木という単語の切れ目に着目した索引構造を,線形時間で構築する初のアルゴリズムを開発した.また,疎有向無閉路文字列グラフ,疎圧縮有向無閉路文字列グラフという新たな索引構造を提案し,これらを線形時間で構築するアルゴリズムを与えた. 3)機械可読なデータの多くは,文字列として表現されている.情報爆発時代と呼ばれる昨今において,巨大データから有用な知識だけを半自動的に抽出する手法の開発は,緊急課題のひとつとなっている.本研究では,正例と負例という二つの文字列集合が与えられたとき,これらを最も端的に弁別する文字列分類機を効率よく発見するアルゴリズムを提案した.文字列分類機は,文字列パタン発見における既存のパタンクラスの自然な拡張になっている.最適な文字列分類機を発見する問題がNP困難であることを示した上で,高速な文字列照合技法と効率的な枝刈り手法を組み合わせることで,実用的な知識発見アルゴリズムを設計した.

Research Products

(6 results)

All 2007 2006

All Journal Article (6 results)

[Journal Article] Simple Linear-Time Off-Line Text Compression by Longest-First Substitution2007
- Author(s)
  Ryosuke Nakamura et al.
- Journal Title
  
  Proc.Data Compression Conference '07
  
  Pages: 123-132
[Journal Article] A New Family of String Classifiers Based on Local Relatedness2006
- Author(s)
  Yasuto Higa at al.
- Journal Title
  
  Proc.9th International Conference on Discovery Science LNAI4265
  
  Pages: 114-124
[Journal Article] Sparse Directed Acyclic Word Graphs2006
- Author(s)
  Shunsuke Inenaga, Masayuki Takeda
- Journal Title
  
  Proc.13th International Symposium on String Processing and Information Retrieval LNCS4209
  
  Pages: 61-73
[Journal Article] Reachability on Suffix Tree Graphs2006
- Author(s)
  Yasuto Higa et al.
- Journal Title
  
  Proc.The Prague Stringology Conference '06
  
  Pages: 212-225
[Journal Article] Sparse Compact Directed Acyclic Word Graphs2006
- Author(s)
  Shunsuke Inenaga, Masayuki Takeda
- Journal Title
  
  Proc.The Prague Stringology Conference '06
  
  Pages: 195-211
[Journal Article] On-line Linear-time Construction of Word Suffix Trees2006
- Author(s)
  Shunsuke Inenaga, Masayuki Takeda
- Journal Title
  
  Proc.17th Annual Symposium on Combinatorial Pattern Matching LNCS4009
  
  Pages: 60-71

2006 Fiscal Year Annual Research Report

文字列学理論に基づいた高速知識発見システムの開発に関する基盤研究

Principal Investigator

稲永 俊介 九州大学, 大学院システム情報科学研究院, 特別研究員(PD)

Research Products

[Journal Article] Simple Linear-Time Off-Line Text Compression by Longest-First Substitution2007

Author(s)

Journal Title

[Journal Article] A New Family of String Classifiers Based on Local Relatedness2006

Author(s)

Journal Title

[Journal Article] Sparse Directed Acyclic Word Graphs2006

Author(s)

Journal Title

[Journal Article] Reachability on Suffix Tree Graphs2006

Author(s)

Journal Title

[Journal Article] Sparse Compact Directed Acyclic Word Graphs2006

Author(s)

Journal Title

[Journal Article] On-line Linear-time Construction of Word Suffix Trees2006

Author(s)

Journal Title

稲永俊介九州大学, 大学院システム情報科学研究院, 特別研究員(PD)