研究概要 |
計算機によるデータ解析では,入力データに対して中間データまたは出力結果が計算機では手に負えない大きさに膨れ上がってしまい,事実上計算ができなくなる問題がしばしば起こる.近年のデータの巨大化は顕著に表れており、より効率のよい計算手法の確立が求められている.また,爆発的に増加しているデータが定まった形式を持たないテキストデータであることにも着目しなければならない.テキストデータは非常に多くの情報を内包しているが、その全てを網羅的に解析することは事実上困難である。また,構造を持たない非定型データのために取り扱いが難しいという問題もある.そこで本研究では,テキストデータに内包される冗長な情報を圧縮表現として扱うことで,従来手法ではデータサイズの問題で扱うことのできなかった機械発見手法を実現させることを目的とする.本研究の成果として,機械発見技術の最も基本的な問題である,文字列パターン照合問題に適した新たな圧縮法を開発した.先行研究において,文脈自由文法による圧縮法が,高速な照合に適していると理論と実用の両面で示されていた.これに対して本手法では,さらに上のクラスである文脈依存文法の概念を取り入れた.その結果,gzipなどの一般的な圧縮法と同等の圧縮率を達成し,従来手法よりも高速な文字列パターン照合を実現することに成功した.また,文脈依存文法による圧縮の枠組みが,文脈自由文法による圧縮よりも優位であることを理論的に解析した.
|