• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

情報源符号化における言語モデルの解析と自然言語処理への応用に関する研究

Research Project

Project/Area Number 18700160
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionWaseda University

Principal Investigator

石田 崇  Waseda University, 理工学術院, 助手 (70409639)

Project Period (FY) 2006 – 2007
Project Status Completed (Fiscal Year 2007)
Budget Amount *help
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 2007: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2006: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords言語理論 / 情報理論 / 符号化 / 自然言語処理
Research Abstract

2007年度は昨年度に引き続き,情報源符号化(データ圧縮)問題において,従来とは異なるアプローチにより提案された,言語構造を考慮した情報源モデルであるword-valued sourceを対象にして,ユニバーサル符号化の諸問題と自然言語処理問題への応用について検討を行った.
ユニバーサル符号化問題において,理論的な圧縮限界という工学的な指標を与える意味でエントロピー・レートを導出することは非常に重要なテーマである.また,エントロピー・レートは情報源の確率構造の複雑性を表す指標でもあり,これは同時に自然言語処理における言語構造の指標にも成り得ることを意味している.
一般的なword-valued sourceについてはエントロピー・レートが存在することが示されていないため,特殊な制約条件を課すことにより陽な形式でエントロピー・レートを導出できる情報源のクラスを検討してきた.より広いクラスに対してはエントロピー・レートの上界・下界を拡張し,数値実験によりその挙動を検証して定性的な評価を行った.また,エントロピー・レートが陽に導出できされたクラスに対してユニバーサル符号の圧縮性能の評価を行った.
また,word-valued sourceを自然言語処理分野における,もっとも基本的で重要なプロセスである形態素解析に適用し,この言語モデルに対する単語分割問題を定式化した.数値実験によりその性能評価を行い,言語構造と単語分割の精度との関係を明らかにし,その成果をThe 7th IEEE International Conference on Computer and Information Technology (CIT2007)(2007年10月)で発表した.

Report

(2 results)
  • 2007 Annual Research Report
  • 2006 Annual Research Report
  • Research Products

    (3 results)

All 2007 2006

All Journal Article (2 results) Presentation (1 results)

  • [Journal Article] 語頭条件を満たさないWord-valued sourceに対するLZ78符号の符号化性能について2007

    • Author(s)
      石田崇, 松嶋敏泰, 平澤茂一
    • Journal Title

      電子情報通信学会技術研究報告 vol.106, no.516

      Pages: 13-18

    • NAID

      110006202383

    • Related Report
      2006 Annual Research Report
  • [Journal Article] Properties of a Word-Valued Source with a Non-Prefix-Free Word Set2006

    • Author(s)
      T.Ishida, M.Goto, T.Matsushima, S.Hirasawa
    • Journal Title

      IEICE Trans. Fundamentals. vol.E-89A, no.12

      Pages: 3710-3723

    • NAID

      110003177882

    • Related Report
      2006 Annual Research Report
  • [Presentation] Word segmentation for the sequences emitted from a word-valued source2007

    • Author(s)
      T. Ishida, T. Matsushima, S. Hirasawa
    • Organizer
      The 7th IEEE International Conference on Computer and Information Technology (CIT2007)
    • Place of Presentation
      Aizu, Japan
    • Related Report
      2007 Annual Research Report

URL: 

Published: 2006-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi