研究概要 |
2007年度は昨年度に引き続き,情報源符号化(データ圧縮)問題において,従来とは異なるアプローチにより提案された,言語構造を考慮した情報源モデルであるword-valued sourceを対象にして,ユニバーサル符号化の諸問題と自然言語処理問題への応用について検討を行った. ユニバーサル符号化問題において,理論的な圧縮限界という工学的な指標を与える意味でエントロピー・レートを導出することは非常に重要なテーマである.また,エントロピー・レートは情報源の確率構造の複雑性を表す指標でもあり,これは同時に自然言語処理における言語構造の指標にも成り得ることを意味している. 一般的なword-valued sourceについてはエントロピー・レートが存在することが示されていないため,特殊な制約条件を課すことにより陽な形式でエントロピー・レートを導出できる情報源のクラスを検討してきた.より広いクラスに対してはエントロピー・レートの上界・下界を拡張し,数値実験によりその挙動を検証して定性的な評価を行った.また,エントロピー・レートが陽に導出できされたクラスに対してユニバーサル符号の圧縮性能の評価を行った. また,word-valued sourceを自然言語処理分野における,もっとも基本的で重要なプロセスである形態素解析に適用し,この言語モデルに対する単語分割問題を定式化した.数値実験によりその性能評価を行い,言語構造と単語分割の精度との関係を明らかにし,その成果をThe 7th IEEE International Conference on Computer and Information Technology (CIT2007)(2007年10月)で発表した.
|