2009 Fiscal Year Annual Research Report
パターン圧縮に基づく機械発見における計算限界の打破
Project/Area Number |
09J01104
|
Research Institution | Kyushu University |
Principal Investigator |
丸山 史郎 Kyushu University, システム情報科学研究院, 特別研究員(DC2)
|
Keywords | データ圧縮 / 文字列パターン照合 / 情報検索 |
Research Abstract |
計算機によるデータ解析では,入力データに対して中間データまたは出力結果が計算機では手に負えない大きさに膨れ上がってしまい,事実上計算ができなくなる問題がしばしば起こる.近年のデータの巨大化は顕著に表れており、より効率のよい計算手法の確立が求められている.また,爆発的に増加しているデータが定まった形式を持たないテキストデータであることにも着目しなければならない.テキストデータは非常に多くの情報を内包しているが、その全てを網羅的に解析することは事実上困難である。また,構造を持たない非定型データのために取り扱いが難しいという問題もある.そこで本研究では,テキストデータに内包される冗長な情報を圧縮表現として扱うことで,従来手法ではデータサイズの問題で扱うことのできなかった機械発見手法を実現させることを目的とする.本研究の成果として,機械発見技術の最も基本的な問題である,文字列パターン照合問題に適した新たな圧縮法を開発した.先行研究において,文脈自由文法による圧縮法が,高速な照合に適していると理論と実用の両面で示されていた.これに対して本手法では,さらに上のクラスである文脈依存文法の概念を取り入れた.その結果,gzipなどの一般的な圧縮法と同等の圧縮率を達成し,従来手法よりも高速な文字列パターン照合を実現することに成功した.また,文脈依存文法による圧縮の枠組みが,文脈自由文法による圧縮よりも優位であることを理論的に解析した.
|