Research Abstract |
文字列学理論に基づいた高速知識発見システムの開発に関する基盤研究として,本年度は1)データ圧縮,2)索引構造,3)知識発見,に関する研究を行った. 1)データ圧縮に関する研究は,1970年代から今日まで盛んに行われている.本研究では,長さ優先置換法と呼ばれるデータ圧縮技法に対し,線形時間・領域で動作するアルゴリズムを提案した.また,この技法を改良し,より高い圧縮率を実現するアルゴリズムを与えた.この改良版アルゴリズムも線形時間・領域で動作する.さらに,長さ優先置換法と頻度優先置換法の比較実験を行い,データによっては長さ優先置換法がより優れていることを示した. 2)1973年にWeinerによって提案された接尾辞木をはじめとして,文字列データに対する様々な索引構造が提案されている,本研究では,疎接尾辞木という単語の切れ目に着目した索引構造を,線形時間で構築する初のアルゴリズムを開発した.また,疎有向無閉路文字列グラフ,疎圧縮有向無閉路文字列グラフという新たな索引構造を提案し,これらを線形時間で構築するアルゴリズムを与えた. 3)機械可読なデータの多くは,文字列として表現されている.情報爆発時代と呼ばれる昨今において,巨大データから有用な知識だけを半自動的に抽出する手法の開発は,緊急課題のひとつとなっている.本研究では,正例と負例という二つの文字列集合が与えられたとき,これらを最も端的に弁別する文字列分類機を効率よく発見するアルゴリズムを提案した.文字列分類機は,文字列パタン発見における既存のパタンクラスの自然な拡張になっている.最適な文字列分類機を発見する問題がNP困難であることを示した上で,高速な文字列照合技法と効率的な枝刈り手法を組み合わせることで,実用的な知識発見アルゴリズムを設計した.
|