2021 Fiscal Year Research-status Report
Data Compression: theoretical and practical approaches to the smallest grammar problem
Project/Area Number |
21K11745
|
Research Institution | Tohoku University |
Principal Investigator |
篠原 歩 東北大学, 情報科学研究科, 教授 (00226151)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | データ圧縮 / 文字列処理 / 機械学習 / 文法推論 / 質問学習 |
Outline of Annual Research Achievements |
本研究では,可逆的データ圧縮の代表例である文法圧縮に対して,理論と応用の両面から取り組んでいる.初年度として,まず,確率マクロ文法に対する学習アルゴリズムの開発に力を注いだ.既存研究として,文法圧縮に確率文脈自由文法を用いるものが知られているが,マクロ文法は文脈自由文法を真に超える表現力を持つため,より強力な圧縮器を構成する候補となりうる.我々は,確率文脈自由文法のパラメータ推定によく用いられているInside-Outsideアルゴリズムを土台として,高階文法における型導出の技術を用いることで,確率マクロ文法への自然な拡張を行うことに成功した.そしてその効果を計算機実験によって検証した. また,重み付きシンボリックオートマトン(SWFA)の学習可能性に関する研究成果を得た.SWFAは,古典的な有限オートマトンの2つの方向への拡張である重み付きオートマトン(WFA)とシンボリックオートマトン(SFA)を融合したものである. WFAは0/1だけではなく一般の数値を扱うための拡張であり,一方SFAは状態遷移に述語を用いることで入力の対象とする記号の数が極めて大きい場合や無限の場合でも簡潔に定義し表現できるようにするための拡張である.SWFAは,これら双方の利点を併せ持つため,応用範囲の広がりが期待できる.既存研究において,所属性質問と等価性質問を用いる厳密学習の枠組みでWFAとSFAそれぞれに対する学習アルゴリズムが示されていたが,本研究ではそれらを一般化することでSWFAに対する効率のよい質問学習アルゴリズムを開発することに成功した.また計算機実験によって,このアルゴリズムの挙動を評価した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最小文法問題とは,入力として与えられた文字列のみを生成する文脈自由文法の中で最もサイズの小さいものを探す組合せ最適化問題である.この問題に対する様々な近似アルゴリズムが提案されており,高性能なデータ圧縮法の技術基盤となっている.本研究は,既存の文法圧縮を確率文法圧縮と高階圧縮の2方向に一般化し,その解法を探求するもので,今年度の成果として得られた確率マクロ文法に対する学習アルゴリズムは,その第一歩である. また,データを説明する簡潔なモデルを得るための技術という観点から,重み付きシンボリックオートマトンに対する質問学習アルゴリズムが開発できたことも大きな前進である.入力の対象とする記号数の多い系列に対しても,述語をうまく設定することで煩雑にならない表現が得られることが期待できる.
|
Strategy for Future Research Activity |
今年度の成果を足がかりとして,さらなる研究を展開していく予定である.確率マクロ文法の学習に関しては,さらなる高階化への拡張と共に,実装上の効率化が一つの重要な課題となっている.表現力の強化に伴う探索空間の広がりに対して,どのように効率よく枝刈りを行うかが鍵である.そのための手法の開発を目指す. また,文法最小化問題という組合せ最適化問題を,深層強化学習の技術と計算機パワーによって実用的に解くという試みに関しては,予備実験を進めている段階である.ここでは文法をどのように表現するのかが重要な要素となるため,さまざまな方法を試行錯誤しているところで,他の組合せ最適化問題に対する適応例を参考にしながら引き続き研究を推進していく予定である.
|
Causes of Carryover |
COVID-19 の影響で,論文が採択された国際会議や研究会がすべてオンライン開催となってしまい,旅費や参加費がかからなくなってしまったため. 次年度の出張予算に充当する予定である.
|
Research Products
(4 results)