• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

係り受けや照応・省略などの高次言語情報を用いた確率的言語モデル

Research Project

Project/Area Number 20680008
Research InstitutionKyoto University

Principal Investigator

森 信介  Kyoto University, 学術情報メディアセンター, 准教授 (90456773)

Keywords確率的言語モデル / 係り受け / 照応・省略 / 認知科学 / 音声認識
Research Abstract

平成20年度では、辞書の例文や新聞記事の文に、単語境界情報と単語間の係り受け情報を付与し、分析・実験のためのコーパスを作成した。次に、文字列から係り受けまでの言語現象を対象とする構造的言語モデルを構築した。
(1) 単語境界情報と単語間の係り受け情報の付与
まず、単語境界情報や単語間の係り受け情報を付与するためのツールを作成した。次にこれらを用いて、辞書の例文と新聞記事の文に情報付与を行なった。合計の文数は、26、418であり、文字数は725、354である。この過程において、単語分割情報が部分的に付与されたコーパスからの自動単語分割器を構築し、初期の単語分割情報の自動生成に用いた。また、各単語には読みを付与し、仮名漢字変換や読み推定の実験が行なえるようにした。
(2) 構造的言語モデルの構築及び評価
単語間の係り受け情報を考慮して単語予測を行なう構造的言語モデルを考案し作成した。構造的言語モデルは、履歴を単語列としてではなく、係り受けという木構造を持つと考えて次の単語を予測する。これを係り受け情報の付与されたゴーパスに対して適用し、予測力の測定を行なった。その結果、従来の単語列を仮定する言語モデルとの比較において一定の改善が見られた。また、構造的言語モデルを仮名漢字変換や読み推定などの実際のアプリケーションに適用し、精度評価などの実験を行なった。その結果、従来の単語列を仮定する言語モデルとの比較において一定の改善が見られた。

  • Research Products

    (3 results)

All 2008

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (1 results)

  • [Journal Article] Training Conditional Random Fields Using Incomplete Annotations2008

    • Author(s)
      Yuta TSUBOL.Hisashi,KASHIMA, Shinsuke MORI Hitoki ODA Yuji
    • Journal Title

      Int'l Conf. of Computational Linguistics

      Pages: 897-904

    • Peer Reviewed
  • [Journal Article] Extracting Word-Pronunciation Pairs from Comparable Set of Text and beech2008

    • Author(s)
      Tetsuro SASADA, Shinsuke MORI, Tatsuva KAWAHARA
    • Journal Title

      Int'l Conf. of InterSpeech 2008

      Pages: 1821-1824

    • Peer Reviewed
  • [Presentation] 音声認識のための言語処理 : 何が足りないか?2008

    • Author(s)
      森信介
    • Organizer
      情報処理学会音声言語情報処理研究会
    • Place of Presentation
      岩手県盛岡市
    • Year and Date
      2008-07-18

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi