2015 Fiscal Year Research-status Report
逐次仮説検定および十分統計量との関連に着目したVFデータ圧縮法の解析および設計
Project/Area Number |
15K06088
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
有村 光晴 湘南工科大学, 工学部, 講師 (80313427)
|
Project Period (FY) |
2015-10-21 – 2018-03-31
|
Keywords | データ圧縮 / ユニバーサル符号 / 情報理論 / 統計的推定 / 十分統計量 / 逐次仮説検定 |
Outline of Annual Research Achievements |
今年度は,可変長メッセージ集合を固定長符号語集合に符号化するVF符号と十分統計量との関係について理論的に解析した. 過去の研究において,固定長メッセージ集合を可変長符号語集合に符号化するFVユニバーサル符号と十分統計量を拡張した漸近十分統計量の関係を調べた.これら両者は,あるパラメトリックな確率過程のクラスに対して,パラメータと独立な関数(それぞれ符号語と統計量)の存在を示しているという意味で,同様の性質であり,両者には理論的な関連があると考えられる.この研究では,ある確率過程のクラスに対してFVユニバーサル符号が存在するとき,同じクラスに対する漸近十分統計量が存在すること,また漸近十分統計量が存在するとき,同じクラスに対してFVユニバーサル符号が存在することを示した. 本年度は,FV符号の代わりにVF符号を用いて,同様の考察を行った.以前の研究において,漸近十分統計量を用いてユニバーサル符号を構築することができたが,構築されたユニバーサル符号の符号語長は可変長であるため,この結果をVF符号に適用することができない.今回FV符号を解析するにあたり,これを,可変長メッセージ集合を可変長符号語集合に符号化するVV符号に拡張することで,十分統計量との関連を示すことができた.さらに,情報源近似を導入し,近似された情報源に対する漸近十分性を用いることで,有限状態情報源のクラスに対してLZ78符号のバリエーションであるLZY符号の分割木を用いた二段階符号を構成し,この符号の冗長度の評価を行った.この評価は既に存在する研究成果であるが,十分統計量の性質を用いることで,極めて簡潔な評価を行うことが可能となった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までに,VF符号と十分統計量の関係について理論を構築することができた.これは,VFデータ圧縮符号の理論解析として申請時に目標とした,二つの統計学的な性質との関連のうち,一つについて成果を出すことができたことになる. 3年間の研究期間のうち,1年間が終了した.元々研究計画としては,VF符号と十分統計量に関する理論的な関連性,VF符号と逐次仮説検定に関する理論的な関連性,及びこれらを用いた新しい符号の設計法の構築という3つのテーマを掲げており,1年目でこのうち全体の3分の1の成果を出すことができた.得られた結果は国内の学会で発表済みであり,既に査読付き国際会議に投稿済みである. また,複数の分割木を用いて情報源系列から複数の可変長の単語を切り出し,それらを符号化するmulti-shot Tunstall符号について,符号化レートが情報源のエントロピーレートに概収束する条件について明らかにし,この結果を書いた論文が査読付き論文誌に掲載された.この論文での解析は符号化および復号化の際に情報源の確率が既知であるというユニバーサルでない設定で行われている.しかし,multi-shot Tunstall符号は,逐次的な実装が可能となるため,これを用いたユニバーサルVF符号の構築および理論解析が可能となる.特に,分割に用いる木の葉の数の幾何平均を定義し,この量が符号化性能および最適に符号化できる条件の鍵となっている.この結果により,分割木の葉の数の幾何平均という量と,十分統計量との関連を理論的に解析することができるようになった.
|
Strategy for Future Research Activity |
今後は,逐次仮説検定とVF符号との関係を理論的に解析する計画である.これは,VFデータ圧縮符号の理論解析として申請時に目標とした,二つの統計学的な性質との関連のうち,二つ目についての研究である. 元々仮説検定問題は,データのサンプル数を固定した上で,二つの対立する仮説についてどちらが成立するかを統計学的に定式化したものである.韓によって構築された情報スペクトル理論において,仮説検定問題と情報源符号化問題に関連があることが示されている.しかし,この際に用いられている情報源符号化は固定長メッセージ集合を固定長符号語集合に符号化するFF符号のみであり,本研究で対象としているVF符号に関する結果は得られていない. 本研究においては,可変長メッセージ集合を固定長符号語集合に符号化するVF情報源符号化の問題に対応させて,逐次仮説検定問題を用いることにした.逐次仮説検定はWaldによって定式化されたもので,サンプルを採取しながら,逐次的に仮説が成立するかどうかを検定する問題である.ある確率以上で仮説が成立することが言えた場合,サンプルの採取をやめることができるため,採取されたサンプルの値によって,サンプル数は変化する.これが丁度,VF符号の可変長メッセージ集合に対応すると考えられるため,理論的な関連を示すことができると考えられる. 基本的には,情報スペクトル理論で構築されている,FF符号化と仮説検定問題の理論的な関連を拡張する方向で進めることを計画している.
|
Causes of Carryover |
申請時には4月から研究を開始する予定であったが,採択されたのが10月であったため,研究の開始が遅くなった.これにより,初年度に購入する予定であった備品がまだ購入できていないため,次年度使用額が生じた. 初年度には,投稿中であった論文の掲載費用,初年度の研究成果を国内学会で発表するための旅費および参加費,研究にまず必要な統計学関連書籍の購入を行った.
|
Expenditure Plan for Carryover Budget |
申請時に購入予定であった備品を,次年度に購入する予定である.まずは,シミュレーション実験用の計算機およびプレゼンテーション用のノートパソコンを購入する計画である. また,初年度に出た研究成果を国際会議に投稿中であるため,採択された時には,この発表のための旅費および参加費として使用する計画である.
|