情報源符号化における言語モデルの解析と自然言語処理への応用に関する研究

研究課題

研究課題/領域番号	18700160
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	早稲田大学
研究代表者	石田崇早稲田大学, 理工学術院, 助手 (70409639)
研究期間 (年度)	2006 – 2007
研究課題ステータス	完了 (2007年度)
配分額 *注記	1,900千円 (直接経費: 1,900千円) 2007年度: 900千円 (直接経費: 900千円) 2006年度: 1,000千円 (直接経費: 1,000千円)
キーワード	言語理論 / 情報理論 / 符号化 / 自然言語処理
研究概要	2007年度は昨年度に引き続き,情報源符号化(データ圧縮)問題において,従来とは異なるアプローチにより提案された,言語構造を考慮した情報源モデルであるword-valued sourceを対象にして,ユニバーサル符号化の諸問題と自然言語処理問題への応用について検討を行った. ユニバーサル符号化問題において,理論的な圧縮限界という工学的な指標を与える意味でエントロピー・レートを導出することは非常に重要なテーマである.また,エントロピー・レートは情報源の確率構造の複雑性を表す指標でもあり,これは同時に自然言語処理における言語構造の指標にも成り得ることを意味している. 一般的なword-valued sourceについてはエントロピー・レートが存在することが示されていないため,特殊な制約条件を課すことにより陽な形式でエントロピー・レートを導出できる情報源のクラスを検討してきた.より広いクラスに対してはエントロピー・レートの上界・下界を拡張し,数値実験によりその挙動を検証して定性的な評価を行った.また,エントロピー・レートが陽に導出できされたクラスに対してユニバーサル符号の圧縮性能の評価を行った. また,word-valued sourceを自然言語処理分野における,もっとも基本的で重要なプロセスである形態素解析に適用し,この言語モデルに対する単語分割問題を定式化した.数値実験によりその性能評価を行い,言語構造と単語分割の精度との関係を明らかにし,その成果をThe 7th IEEE International Conference on Computer and Information Technology (CIT2007)(2007年10月)で発表した.

報告書

(2件)

2007 実績報告書
2006 実績報告書

研究成果
(3件)

すべて 2007 2006

すべて雑誌論文 (2件) 学会発表 (1件)

[雑誌論文] 語頭条件を満たさないWord-valued sourceに対するLZ78符号の符号化性能について2007
- 著者名/発表者名
  石田崇, 松嶋敏泰, 平澤茂一
- 雑誌名
  
  電子情報通信学会技術研究報告 vol.106, no.516
  
  ページ: 13-18
- NAID
  110006202383
- 関連する報告書
  2006 実績報告書
[雑誌論文] Properties of a Word-Valued Source with a Non-Prefix-Free Word Set2006
- 著者名/発表者名
  T.Ishida, M.Goto, T.Matsushima, S.Hirasawa
- 雑誌名
  
  IEICE Trans. Fundamentals. vol.E-89A, no.12
  
  ページ: 3710-3723
- NAID
  110003177882
- 関連する報告書
  2006 実績報告書
[学会発表] Word segmentation for the sequences emitted from a word-valued source2007
- 著者名/発表者名
  T. Ishida, T. Matsushima, S. Hirasawa
- 学会等名
  The 7th IEEE International Conference on Computer and Information Technology (CIT2007)
- 発表場所
  Aizu, Japan
- 関連する報告書
  2007 実績報告書

情報源符号化における言語モデルの解析と自然言語処理への応用に関する研究

研究代表者

石田 崇 早稲田大学, 理工学術院, 助手 (70409639)

1,900千円 (直接経費: 1,900千円)

報告書

研究成果

[雑誌論文] 語頭条件を満たさないWord-valued sourceに対するLZ78符号の符号化性能について2007

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Properties of a Word-Valued Source with a Non-Prefix-Free Word Set2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] Word segmentation for the sequences emitted from a word-valued source2007

著者名/発表者名

学会等名

発表場所

関連する報告書

石田崇早稲田大学, 理工学術院, 助手 (70409639)