Data Compression: theoretical and practical approaches to the smallest grammar problem
Project/Area Number |
21K11745
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60010:Theory of informatics-related
|
Research Institution | Tohoku University |
Principal Investigator |
篠原 歩 東北大学, 情報科学研究科, 教授 (00226151)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | データ圧縮 / 文字列処理 / 機械学習 / 文法推論 / 質問学習 / 最小文法問題 / 文法圧縮 / アルゴリズム |
Outline of Research at the Start |
可逆的データ圧縮の代表例である文法圧縮に対して,理論と応用の両面から取り組む.最小文法問題とは,入力として与えられた文字列のみを生成する文脈自由文法の中で最もサイズの小さいものを探す組合せ最適化問題である.この問題に対する様々な近似アルゴリズムが提案されており,高性能なデータ圧縮法の技術基盤となっている.本研究は,既存の文法圧縮を確率文法圧縮と高階圧縮の2方向に一般化し,その解法を探求する.理論面においては,この最適化問題の近似困難性の解明と近似アルゴリズムの開発を行う.また応用面から,ここで開発する近似アルゴリズムを実装し,実データに対して有用な可逆圧縮システムを構築する.
|
Outline of Annual Research Achievements |
本研究は,可逆的データ圧縮の代表例である文法圧縮に対して,理論と応用の両面から取り組んでいる.今年度は関連する文字列処理に関して様々な進展があった.文字の置換を許容して構造の一致を見つけ出すパラメータ化パターン照合問題に関して2つのアプローチを行った.まず,検索を高速化するために,有向非巡回文字列グラフ(DAWG)を拡張した索引構造を新たに提案し,それをテキストから効率よく構築するアルゴリズムを開発した.このアルゴリズムはテキストの末尾に文字を付加した場合にも索引の更新が容易なオンライン型となっている.またこの索引構造を活用することで,検索の対象となるパターンの前後に新たな文字列を付加した場合にその変更に追随しながら効率よくパラメータ化照合ができることを示した.第2のアプローチとして,可逆的データ圧縮で重要な働きをするBurrow-Wheeler変換(BW変換)について,パラメータ化に拡張したBW変換を効率よく行えるアルゴリズムを開発した.このアルゴリズムもオンライン型である.さらに,パラメータ化照合や順序保存照合を含む,より一般化した枠組みにおいて,高速に検索を行うことのできる汎用の並列照合アルゴリズムを開発することに成功した. 一方,通常の文字列照合に用いられる索引構造であるポジションヒープに関して,索引構造から元の文字列を復元する「逆問題」の解析に取り組んだ.索引構造に文字ラベルや頂点番号がすべて付与されている場合だけではなく,それらが隠蔽された種々の設定においても,効率よく復元が行えることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最小文法問題とは,入力として与えられた文字列のみを生成する文脈自由文法の中で最もサイズの小さいものを探す組合せ最適化問題である.この問題に対する様々な近似アルゴリズムが提案されており,高性能なデータ圧縮法の技術基盤となっている.今年度は,研究実績の概要欄に述べたとおり,文字列処理の効率化の部分で大きな進展があった.特にパラメータ化照合を対象とした索引構造やBW変換に関して様々な知見を得ることができた.またパラメータ化を含む,より汎用の枠組みの中で,パターン照合に対する新たな並列処理アルゴリズムを開発することができた.これらは効率のよいデータ処理を実装するために有用である.また実データに対するデータ圧縮に関して,同種のデータが多数ある場合に役立ちそうなアプローチをいくつか検討中であり,プロトタイプを実装して予備実験を行っている段階である.一方,組合せ最適化問題としての最小文法問題の計算量解析については,引き続き文献調査を継続している.
|
Strategy for Future Research Activity |
今年度の成果を足がかりとして,さらなる研究を展開していく予定である.高階文法や確率文法を含めた文法圧縮の実装上の効率化については,その鍵となる文字列処理についてさらに幅広く深く調査を進める予定である.またパラメータ化照合をデータ圧縮にうまく活用する方法を模索しながら,実装実験を行い,その可能性を探る. また,形式言語理論の枠組みの中でデータ圧縮を文法推論として捉え,与えられたデータからそこに内在する文法や有限オートマトンとして推測する学習理論についても再考する.帰納推論や質問学習などの設定で,実用上の観点からアルファベットサイズの大きな対象を効率よく学習できる手法の開発を目指す. さらに,文法最小化問題という組合せ最適化問題を,深層強化学習の技術と計算機パワーによって実用的に解くという試みに関しても,引き続き実験を継続していく.深層強化学習については短期間で多種多様な新たな手法が提案されているので,それらをよく調査しながら検討する.ここでは文法をどのように表現するのかが成功への重要な要因となるためさまざまな方法を試行錯誤しているところで,他の組合せ最適化問題に対する適応例を参考にして研究を推進していく予定である.
|
Report
(2 results)
Research Products
(10 results)