研究課題/領域番号 |
26330005
|
研究機関 | 群馬大学 |
研究代表者 |
横尾 英俊 群馬大学, 大学院理工学府, 教授 (70134153)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 情報理論 / データ圧縮 / CSE / ユニバーサル符号 / 部分列数え上げ |
研究実績の概要 |
部分列数え上げデータ圧縮法 (CSE: Compression by Substring Enumeration) と呼ばれる無ひずみデータ圧縮法の新規符号化アルゴリズムを開発し,圧縮性能の実験的評価に応用した。CSE法は,数え上げ符号,反辞書法,ブロックソート法等の他のユニバーサルデータ圧縮法と密接に関連し,近年,注目されつつあるデータ圧縮法である。しかし,単純な実装法が知られていないために,実データによる実際的な性能評価はほとんどなされていない。本研究では,これまで提案されてきた木構造を利用した実装法にかえて,配列情報のみで符号化が可能な新規アルゴリズムを開発し,実際に計算機プログラムとして実装することにより,大規模データの符号化実験を可能にした。開発したアルゴリズムは単純かつ高速なため,メガバイト長のデータに対しても適用可能である。圧縮実験の結果,マルコフ情報源の出力に対しては,理論が予測するとおりの圧縮性能の変化を確認することができた。計算機ファイルや標準コーパス等の実データでは,組み合わせる符号化モデルの選択によって圧縮性能に変化が見られることは確認できたが,従来法の圧縮性能を必ず凌駕するような決定的なモデルはまだ見つかっていない。今後,候補となるような符号化モデルのほか,単なるモデル以上のより実際的な符号化法も含めて,新規な可能性の比較検証を継続する予定である。 以上のほか,CSE法の多値アルファベットへの拡張,CST木の直接構成法,ブロックソート法への応用についても予備的考察を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の核であるCSE法そのものの実現には計画以上の進展があり,それに付随する研究課題についても,いくつかの重要な知見が得られている。確定的決定文脈の計算法については2元アルファベットを対象とする場合は解決済みなので,今後は,多元アルファベットに拡張する計画である。また,統計型・文脈参照型データ圧縮法との融合も試験的な実験に着手している。一方,着手したものの実際の進展は今後の課題として残ったままの問題もある。更にこれらの各部分問題を統合して全体的な再構成につなげることも今後の課題である。
|
今後の研究の推進方策 |
CSE法の長所・短所が明確になってきたので,長所をいかすような具体的な符号化法の開拓に重点をシフトする。その上で,関連する他の手法をCSEの視点の再評価を進める。具体的には,辞書式データ圧縮法,ブロックソート法,そして情報検索への応用の特に理論解析を進展させる。CSE法単体としては,符号化法の工夫により,従来法の最高水準の圧縮性能を目指す。
|
次年度使用額が生じた理由 |
計算機実験用のPC購入に充当する予定で確保しておいた額であるが,所望の性能のPC購入にはやや不足することが判明した。ただ,これに次年度分からわずかに加える程度で,所望の性能を十分満たすPCが購入できることも同時に判明したので,そのように執行することにした。
|
次年度使用額の使用計画 |
次年度使用額を追加することで所望の性能のPC購入に充当する計画である。
|