2006 Fiscal Year Annual Research Report
情報源符号化における言語モデルの解析と自然言語処理への応用に関する研究
Project/Area Number |
18700160
|
Research Institution | Waseda University |
Principal Investigator |
石田 崇 早稲田大学, 理工学術院, 助手 (70409639)
|
Keywords | 言語理論 / 情報理論 / 符号化 |
Research Abstract |
情報源符号化(データ圧縮)問題において,圧縮の対象となる情報源の構造を反映する確率モデルの構築は大変重要なテーマである.特に情報源モデルのエントロピー・レートは理論的な圧縮限界を与えるという意味でも工学的に重要な指標である,本研究では,これまでに「言語構造を考慮した情報源モデル」を提案している.この情報源モデルは,自然言語などの確率構造をより反映したモデルと捉えることができ,近年言語の確率モデルが重要な役割を果たすようになってきた自然言語処理分野への応用も期待される. しかし,一般的なモデルでは情報源の確率構造が複雑であるためエントロピー・レートが導出されていなかった.そこで2006年度は,情報源に対するエントロピー・レートの下界を解析的に厳密に導出し,電子情報通信学会英文誌に投稿し掲載された(2006年12月).また,この情報源に対して,一般的な圧縮アルゴリズムであるLZ78符号を適用した際の圧縮効率について数値実験的な評価を行い,電子情報通信学会情報理論研究会において研究発表を行った(2007年1月). さらに自然言語処理分野への応用の足がかりとして,提案している言語モデルを前提に情報源符号化アルゴリズムを適用した効率的な形態素解析システムの構築を検討している。特に2006年度は情報源符号化アルゴリズムとしても比較的新しい手法であるベイズ符号化アルゴリズムと提案モデルの自然言語処理分野への応用に取り組んでいる.ベイズ符号化アルゴリズムはベイズ決定理論の下で最適な圧縮手法であることから,このアルゴリズムの適用によってこれまで以上に精度の高い自然言語処理システムを構成できることが期待される.
|
Research Products
(2 results)