2002 年度研究成果報告書概要

講演・会議音声の自動書き起こしのための柔軟な音声言語処理モデル

研究課題

研究課題/領域番号	12480085
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	京都大学
研究代表者	河原達也京都大学, 情報学研究科, 助教授 (00234104)
研究分担者	堂下修司龍谷大学, 理工学部, 教授 (00025925) 池田克夫大阪工業大学, 情報科学部, 教授 (30026009) 黒橋禎夫東京大学, 情報処理工学系研究科, 助教授 (50263108) 奥乃博京都大学, 情報学研究科, 教授 (60318201) 佐藤理史京都大学, 情報学研究科, 助教授 (30205918)
研究期間 (年度)	2000 – 2002
キーワード	音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram
研究概要	講演や討論などの話し言葉の音声認識における問題を分析した上で、音響モデル・発音モデル・言語モデル・デコーダなどを検討・実装・評価した。学習・評価用のデータとして、開放的融合研究「話し言葉工学」プロジェクトで構築されている日本語話し言葉コーパスを用いた。話し言葉は書き言葉の読上げ音声と大きく性質が異なるため、それに合致したモデル化と認識手法の検討が必要となる。音響モデルについては発話スタイルとデータ量の影響を調べた。言語モデルについては,話し言葉コーパスのデータ量不足を補うために他のコーパスと混合する方法、特に混合重みの最適化手法を提案した。また認識に際して、事前の発話のセグメンテーションが容易でないため、ショートポーズの自動認識に基づいて区分化と認識結果の確定を行う逐次デコーディング方式を提案・実装した。これに加えて、以下のような高精度化を図り、学会等における講演の音声に対して平均で約70%の認識率を得た。 (1)発話速度に依存したデコーディングと音響モデルの適応 (2)講演音声認識のための発音モデルと言語モデルの教師なし適応さらに、以下のような音声言語処理に関する研究も行った。 (3)談話標識の抽出に基づいた講演音声の自動インデキシング (4)講演の書き起こしに対する統計的手法を用いた文体の整形 (5)談話標識と話題語に基づく統計的尺度による講演からの重要文抽出

研究成果
(19件)

すべてその他

すべて文献書誌 (19件)

[文献書誌] 南條浩輝: "大規模な日本語話し言葉データベースを用いた講演音声認識"電子情報通信学会論文誌. J86-DII, 4. 450-459 (2003)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 長谷川将宏: "談話標識の抽出に基づいた講演音声の自動インデキシング"情報処理学会論文誌. 43,7. 2222-2229 (2002)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] H.Nanjo: "Speaking-rate dependent decoding and adaptation for spontaneous lecture speech recognition"Proc. IEEE-ICASSP. 1. 725-728 (2002)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] T.Kawahara: "Automatic transcription of spontaneous lecture speech"IEEE workshop Automatic Speech Recognition and Understanding. (2001)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 河原達也: "日本語ディクテーション基本ソフトウェア(99年度版)"日本音響学会誌. 57・3. 210-214 (2001)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 河原達也: "話し言葉音声認識の概観"電子情報通信学会技術研究報告. SP2000-95. (2000)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 鹿野清宏: "音声認識システム"オーム社. 200 (2001)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] T. Kawahara, H. Nanjo, T. Shinozaki, S. Furui: "Benchmark test for speech recognition us ing the Corpus of Spontaneous Japanese"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] H. Nanjo, K. Shitaoka, T. Kawahara: "Automatic transformation of lecture transcription into document style using statistical framework"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] H. Nanjo, T. Kawahara: "Unsupervised language model adaptation for lecture speech recognition"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] Y. Akita, M. Nishida, T. Kawahara: "Automatic transcription of discussions using unsupervised speaker indexing"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] T. Kawahara, M. Hasegawa: "Automatic indexing of lecture speech by extracting topic-independent discourse markers"Proc. IEEE-ICASSP. 1-4 (2002)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] H. Nanjo, T. Kawahara: "Speaking-rate dependent decoding and adaptation for spontaneous lecture speech recognition"Proc. IEEE-ICASSP. 725-728 (2002)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] T. Kawahara, H. Nanjo, S. Furui: "Automatic transcription of spontaneous lecture speech"Proc. IEEE workshop on Automatic Speech Recognition and Understanding. (2001)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] H. Nanjo, K. Kato, T. Kawahara.: "Speaking rate dependent acoustic modeling for spontaneous lecture speech recognition"Proc. EUROSPEECH. 2531-2534 (2001)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] A. Lee, T. Kawahara, K. Shikano.: "Julius -- an open source real-time large vocabulary recognition engine"Proc. EUEOSPEECH. 1691-1694 (2001)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] A. Lee, T. Kawahara, K. Shikano: "Gaussian mixture selection using context-independent HMM"Proc. IEEE-ICASSP. 69-72 (2001)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] K. Kato, H. Nanjo, T. Kawahara: "Automatic transcription of lecture speech using topic-independent language modeling"Proc. ICSLP. Vol. 1. 162-165 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] A. Lee, T. Kawahara, K. Takeda, K. Shikano: "A new phonetic tied-mixture model for efficient decoding"Proc. IEEE-ICASSP. 1269-1272 (2000)
- 説明
  「研究成果報告書概要(欧文)」より

2002 年度 研究成果報告書概要

講演・会議音声の自動書き起こしのための柔軟な音声言語処理モデル

研究代表者

河原 達也 京都大学, 情報学研究科, 助教授 (00234104)

研究成果

[文献書誌] 南條浩輝: "大規模な日本語話し言葉データベースを用いた講演音声認識"電子情報通信学会論文誌. J86-DII, 4. 450-459 (2003)

説明

[文献書誌] 長谷川将宏: "談話標識の抽出に基づいた講演音声の自動インデキシング"情報処理学会論文誌. 43,7. 2222-2229 (2002)

説明

[文献書誌] H.Nanjo: "Speaking-rate dependent decoding and adaptation for spontaneous lecture speech recognition"Proc. IEEE-ICASSP. 1. 725-728 (2002)

説明

[文献書誌] T.Kawahara: "Automatic transcription of spontaneous lecture speech"IEEE workshop Automatic Speech Recognition and Understanding. (2001)

説明

[文献書誌] 河原達也: "日本語ディクテーション基本ソフトウェア(99年度版)"日本音響学会誌. 57・3. 210-214 (2001)

説明

[文献書誌] 河原達也: "話し言葉音声認識の概観"電子情報通信学会技術研究報告. SP2000-95. (2000)

説明

[文献書誌] 鹿野清宏: "音声認識システム"オーム社. 200 (2001)

説明

[文献書誌] T. Kawahara, H. Nanjo, T. Shinozaki, S. Furui: "Benchmark test for speech recognition us ing the Corpus of Spontaneous Japanese"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)

説明

[文献書誌] H. Nanjo, K. Shitaoka, T. Kawahara: "Automatic transformation of lecture transcription into document style using statistical framework"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)

説明

[文献書誌] H. Nanjo, T. Kawahara: "Unsupervised language model adaptation for lecture speech recognition"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)

説明

[文献書誌] Y. Akita, M. Nishida, T. Kawahara: "Automatic transcription of discussions using unsupervised speaker indexing"Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. (2003)

説明

[文献書誌] T. Kawahara, M. Hasegawa: "Automatic indexing of lecture speech by extracting topic-independent discourse markers"Proc. IEEE-ICASSP. 1-4 (2002)

説明

[文献書誌] H. Nanjo, T. Kawahara: "Speaking-rate dependent decoding and adaptation for spontaneous lecture speech recognition"Proc. IEEE-ICASSP. 725-728 (2002)

説明

[文献書誌] T. Kawahara, H. Nanjo, S. Furui: "Automatic transcription of spontaneous lecture speech"Proc. IEEE workshop on Automatic Speech Recognition and Understanding. (2001)

説明

[文献書誌] H. Nanjo, K. Kato, T. Kawahara.: "Speaking rate dependent acoustic modeling for spontaneous lecture speech recognition"Proc. EUROSPEECH. 2531-2534 (2001)

説明

[文献書誌] A. Lee, T. Kawahara, K. Shikano.: "Julius -- an open source real-time large vocabulary recognition engine"Proc. EUEOSPEECH. 1691-1694 (2001)

説明

[文献書誌] A. Lee, T. Kawahara, K. Shikano: "Gaussian mixture selection using context-independent HMM"Proc. IEEE-ICASSP. 69-72 (2001)

説明

[文献書誌] K. Kato, H. Nanjo, T. Kawahara: "Automatic transcription of lecture speech using topic-independent language modeling"Proc. ICSLP. Vol. 1. 162-165 (2000)

説明

[文献書誌] A. Lee, T. Kawahara, K. Takeda, K. Shikano: "A new phonetic tied-mixture model for efficient decoding"Proc. IEEE-ICASSP. 1269-1272 (2000)

説明

2002 年度研究成果報告書概要

河原達也京都大学, 情報学研究科, 助教授 (00234104)