2008 年度実績報告書

係り受けや照応・省略などの高次言語情報を用いた確率的言語モデル

研究課題

研究課題/領域番号	20680008
研究機関	京都大学
研究代表者	森信介京都大学, 学術情報メディアセンター, 准教授 (90456773)
キーワード	確率的言語モデル / 係り受け / 照応・省略 / 認知科学 / 音声認識
研究概要	平成20年度では、辞書の例文や新聞記事の文に、単語境界情報と単語間の係り受け情報を付与し、分析・実験のためのコーパスを作成した。次に、文字列から係り受けまでの言語現象を対象とする構造的言語モデルを構築した。 (1) 単語境界情報と単語間の係り受け情報の付与まず、単語境界情報や単語間の係り受け情報を付与するためのツールを作成した。次にこれらを用いて、辞書の例文と新聞記事の文に情報付与を行なった。合計の文数は、26、418であり、文字数は725、354である。この過程において、単語分割情報が部分的に付与されたコーパスからの自動単語分割器を構築し、初期の単語分割情報の自動生成に用いた。また、各単語には読みを付与し、仮名漢字変換や読み推定の実験が行なえるようにした。 (2) 構造的言語モデルの構築及び評価単語間の係り受け情報を考慮して単語予測を行なう構造的言語モデルを考案し作成した。構造的言語モデルは、履歴を単語列としてではなく、係り受けという木構造を持つと考えて次の単語を予測する。これを係り受け情報の付与されたゴーパスに対して適用し、予測力の測定を行なった。その結果、従来の単語列を仮定する言語モデルとの比較において一定の改善が見られた。また、構造的言語モデルを仮名漢字変換や読み推定などの実際のアプリケーションに適用し、精度評価などの実験を行なった。その結果、従来の単語列を仮定する言語モデルとの比較において一定の改善が見られた。

研究成果
(3件)

すべて 2008

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (1件)

[雑誌論文] Training Conditional Random Fields Using Incomplete Annotations2008
- 著者名/発表者名
  Yuta TSUBOL.Hisashi,KASHIMA, Shinsuke MORI Hitoki ODA Yuji
- 雑誌名
  
  Int'l Conf. of Computational Linguistics
  
  ページ: 897-904
- 査読あり
[雑誌論文] Extracting Word-Pronunciation Pairs from Comparable Set of Text and beech2008
- 著者名/発表者名
  Tetsuro SASADA, Shinsuke MORI, Tatsuva KAWAHARA
- 雑誌名
  
  Int'l Conf. of InterSpeech 2008
  
  ページ: 1821-1824
- 査読あり
[学会発表] 音声認識のための言語処理 : 何が足りないか?2008
- 著者名/発表者名
  森信介
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  岩手県盛岡市
- 年月日
  2008-07-18

2008 年度 実績報告書

係り受けや照応・省略などの高次言語情報を用いた確率的言語モデル

研究代表者

森 信介 京都大学, 学術情報メディアセンター, 准教授 (90456773)

研究成果

[雑誌論文] Training Conditional Random Fields Using Incomplete Annotations2008

著者名/発表者名

雑誌名

[雑誌論文] Extracting Word-Pronunciation Pairs from Comparable Set of Text and beech2008

著者名/発表者名

雑誌名

[学会発表] 音声認識のための言語処理 : 何が足りないか?2008

著者名/発表者名

学会等名

発表場所

年月日

2008 年度実績報告書

森信介京都大学, 学術情報メディアセンター, 准教授 (90456773)