2009 Fiscal Year Annual Research Report
文字列圧縮技術を基盤とした知織発見アルゴリズムの開発
Project/Area Number |
09J05720
|
Research Institution | Tohoku University |
Principal Investigator |
松原 渉 Tohoku University, 大学院・情報科学研究科, 特別研究員(DC1)
|
Keywords | 文字列処理 / 繰り返し構造 / データ圧縮 / アルゴリズム |
Research Abstract |
取り扱うデータ量が爆発的に増加しているなか,データ圧縮を単に保存領域の削減にとどまらず,処理の効率化を目的とした,圧縮文字列のための文字列アルゴリズムの開発を行うことが本研究のテーマである.今年度は,圧縮の基本構造である繰り返しに着目し,以下の2つの研究を行った. 1つに文字列の繰り返し構造が与えられたとき,入力に無矛盾な文字列を推測する問題について解析を行った.結果として問題の難しさがアルファベットサイズに依存することを明らかにした.アルファベットサイズが無制限もしくはバイナリのとき,高速に解くアルゴリズムを示し,アルファベットサイズが4以上のとき,NP完全となることを示した.この成果は昨年8月にLAシンポジウムにて口頭発表した. 2つに圧縮文字列照合について,すべての移調パタンを多項式時間で検出するアルゴリズムを提案した.移調パタンとは,パタンに文字の置換関数を任意の回数だけ適用して得られるすべてのパタンを指す.移調パタンを見つけることにより,楽譜から特定の旋律を見つけ出す,音楽検索が実現できる.提案アルゴリズムでは,周期性補題を拡張することにより,特定の位置に現れるパタン出現位置を等差数列表現で効率良く保持できることに着目した.この性質を用いて圧縮テキスト長をn,圧縮パタン長をm,アルファベットサイズを\sigmaとして,0(\sqrt{\sigma}n^4)時間,0(n^2)領域で動作するアルゴリズムを示した.この成果は本年4月に行われるコンピュテーション研究会にて発表予定であり,国際学会への投稿を準備中である.
|