2010 Fiscal Year Annual Research Report
文字列圧縮技術を基盤とした知識発見アルゴリズムの開発
Project/Area Number |
09J05720
|
Research Institution | Tohoku University |
Principal Investigator |
松原 渉 東北大学, 大学院・情報科学研究科, 特別研究員(DC1)
|
Keywords | 文字列処理 / 繰り返し構造 / データ圧縮 / アルゴリズム |
Research Abstract |
取り扱うデータ量が爆発的に増加しているなか,データ圧縮を単に保存領域の削減にとどまらず,処理の効率化を目的とした,圧縮文字列のための文字列アルゴリズムの開発を行うことが本研究のテーマである.昨年度に続き,圧縮の基本構造である繰り返しに着目して研究を行った. ひとつに,文字列の繰り返し構造からの文字列推測問題を解析し,問題の難しさがアルファベットサイズに依存することを明らかにした.アルファベットサイズが無制限もしくはバイナリのとき,高速に解くアルゴリズムを示し,アルファベットサイズが4以上のとき,NP完全となることを示した.この成果は9月に国際学会PSC2010にて口頭発表を行った. ふたつに,圧縮文字列照合について,すべての移調パタンを多項式時間で検出するアルゴリズムを提案した.移調パタンとは,パタンに文字の置換関数を任意の回数だけ適用して得られるすべてのパタンのことであり,例として音楽の旋律などが挙げられる.この成果は電子通信情報学会コンピュテーション研究会にて口頭発表した. みっつに,連の個数の最大値を求める問題について,アルファベットサイズを3に拡張することを検討した.具体的な取り組みとして,計算機を用いた探索実験を行うとともに,狭義エピスターミアン文字列における連の個数の最大数について上界と下界を理論的に導いた.現在投稿に向けて準備を進めている.また,これまでの研究成果をふまえ,文字列に含まれる繰り返し構造に関する研究について包括した内容のサーベイを招待講演にて行った.
|