2006 Fiscal Year Annual Research Report

情報源符号化における言語モデルの解析と自然言語処理への応用に関する研究

Research Project

Project/Area Number	18700160
Research Institution	Waseda University
Principal Investigator	石田崇早稲田大学, 理工学術院, 助手 (70409639)
Keywords	言語理論 / 情報理論 / 符号化
Research Abstract	情報源符号化(データ圧縮)問題において,圧縮の対象となる情報源の構造を反映する確率モデルの構築は大変重要なテーマである.特に情報源モデルのエントロピー・レートは理論的な圧縮限界を与えるという意味でも工学的に重要な指標である,本研究では,これまでに「言語構造を考慮した情報源モデル」を提案している.この情報源モデルは,自然言語などの確率構造をより反映したモデルと捉えることができ,近年言語の確率モデルが重要な役割を果たすようになってきた自然言語処理分野への応用も期待される. しかし,一般的なモデルでは情報源の確率構造が複雑であるためエントロピー・レートが導出されていなかった.そこで2006年度は,情報源に対するエントロピー・レートの下界を解析的に厳密に導出し,電子情報通信学会英文誌に投稿し掲載された(2006年12月).また,この情報源に対して,一般的な圧縮アルゴリズムであるLZ78符号を適用した際の圧縮効率について数値実験的な評価を行い,電子情報通信学会情報理論研究会において研究発表を行った(2007年1月). さらに自然言語処理分野への応用の足がかりとして,提案している言語モデルを前提に情報源符号化アルゴリズムを適用した効率的な形態素解析システムの構築を検討している。特に2006年度は情報源符号化アルゴリズムとしても比較的新しい手法であるベイズ符号化アルゴリズムと提案モデルの自然言語処理分野への応用に取り組んでいる.ベイズ符号化アルゴリズムはベイズ決定理論の下で最適な圧縮手法であることから,このアルゴリズムの適用によってこれまで以上に精度の高い自然言語処理システムを構成できることが期待される.

Research Products

(2 results)

All Journal Article (2 results)

[Journal Article] 語頭条件を満たさないWord-valued sourceに対するLZ78符号の符号化性能について2007
- Author(s)
  石田崇, 松嶋敏泰, 平澤茂一
- Journal Title
  
  電子情報通信学会技術研究報告 vol.106, no.516
  
  Pages: 13-18
[Journal Article] Properties of a Word-Valued Source with a Non-Prefix-Free Word Set2006
- Author(s)
  T.Ishida, M.Goto, T.Matsushima, S.Hirasawa
- Journal Title
  
  IEICE Trans. Fundamentals. vol.E-89A, no.12
  
  Pages: 3710-3723