パターン圧縮に基づく機械発見における計算限界の打破
Project/Area Number |
09J01104
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Fundamental theory of informatics
|
Research Institution | Kyushu University |
Principal Investigator |
丸山 史郎 九州大学, 大学院・システム情報科学研究院, 特別研究員(DC2)
|
Project Period (FY) |
2009 – 2010
|
Project Status |
Completed (Fiscal Year 2010)
|
Budget Amount *help |
¥1,400,000 (Direct Cost: ¥1,400,000)
Fiscal Year 2010: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2009: ¥700,000 (Direct Cost: ¥700,000)
|
Keywords | テキストデータ圧縮 / 文法変換に基づく圧縮 / 圧縮データ構造 / 文字列パターン検索 / データ圧縮 / 文字列パターン照合 / 情報検索 |
Research Abstract |
冗長度の高いテキストデータのための軽量なオンライン圧縮アルゴリズムを提案した.このアルゴリズムの特徴として,オンラインで動作するため,次々に追加されていくデータを蓄積することなく逐次的に圧縮することが可能である.また,特別なデータ構造を使わずにデータの局所的な整数演算のみで共通の部分文字列を圧縮できるため,テキストが極端に圧縮可能な場合は十分に少ない主記憶領域で実行できる.実験の結果,重複部分を多く含む実データを約10分の1から1000分の1以下にまで圧縮可能であり,文字列索引を利用しているLZMA圧縮法と比較して約10分の1から100分の1以下の主記憶領域で高速に動作することを確認した.文法圧縮テキスト中の部分文字列の高速な参照のための索引付けに関する研究を行った.圧縮テキストを復元せずに元のテキストのように扱うためには,圧縮テキスト上でランダムアクセスを行い,任意の部分文字列を高速に参照できなければならない.本研究では,そのような操作を可能にする文法圧縮テキストのための索引付け手法を提案した.この索引付けは,索引領域も圧縮テキストの圧縮率に応じて圧縮されるという特徴を持っており,極端に圧縮されている圧縮データに対しても,その索引領域は十分に小さい.また,どんな位置にある部分文字列でも一定の時間で抽出できることが保障される.様々なコーパスに対する実験の結果,元の圧縮テキストサイズの1.2倍から1.5倍程度の主記憶領域で1秒間に500万から700万文字の部分文字列を参照できることを確認した.文法圧縮に基づく圧縮索引構造に関する研究を行った.Edit Sensitive Parsingという手法により圧縮された文法データの特性を使い,入力パターンを圧縮することで圧縮テキスト中の高速な検索が可能であり,本研究では,パターンの出現回数,出現位置,任意の部分文字列の報告を行えるように拡張し,実験による評価を行った.
|
Report
(2 results)
Research Products
(5 results)