文節境界を考慮した統計的言語モデルの高度化と音声認識への利用

研究課題

研究課題/領域番号	16650034
研究種目	萌芽研究
配分区分	補助金
研究分野	知覚情報処理・知能ロボティクス
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
研究分担者	峯松信明東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)
研究期間 (年度)	2004 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	3,300千円 (直接経費: 3,300千円) 2005年度: 1,700千円 (直接経費: 1,700千円) 2004年度: 1,600千円 (直接経費: 1,600千円)
キーワード	言語モデル / 文節境界 / 音声認識 / 韻律的特徴 / Tri-gram / Filler / 自発発話音声 / 生成過程モデル / Perplexity / 言語コーパス / アクセント句境界 / 形態素解析
研究概要	日本語の言語構造・発話構造を考慮した新しい統計的言語モデルを開発した上で、それを音声認識システムに組み込む有効な方策を開発することを目的として以下の成果を達成した。 1.文節境界をまたぐ場合とまたがない場合のtri-gramモデルを学習し、従来のtri-gramモデルと比較し、8%程度以上のperplexityの減少が可能なことを示した。さらに、連続音声認識用openソフトウエアJuliusの第2パスに作成したtri-gramモデルを実装し、JNAS音声コーパスの音声サンプルについて認識実験を行った。新聞記事1年分で学習した言語モデルを用いた場合、提案した言語モデルを用いることにより、従来と比較して8%程度の認識率の改善が得られた。新聞記事3年分で学習した言語モデルを用いた場合には、顕著な改善効果は得られなかった。この観点から、提案したモデルは特に十分な学習コーパスが得られないときに有効であることが推察される。 2.上記は朗読音声に対する成果である。これを自発発話音声に発展させるため、自発発話で多く見られるFillerが深い文節境界で生起する確率が高いことに着目し、Fillerを検出するための韻律モジュールを開発した。当該形態素の韻律的特徴等を入力パラメータとする4層パーセプトロンで韻律モジュールを構築し、74%程度のフィラー検出率を達成した。この韻律モジュールをJuliusに組み込むことにより、90%を超えるRecall率を達成した。今後は、これをもとにFillerを考慮した言語モデルを作成し、自由発話音声の認識に用いる手法の開発を進める。 3.観測される基本周波数パターンと生成過程モデルにより生成される基本周波数パターンとの差分を、文の言語情報、音素情報、指令パラメータから推定する手法を開発し、観測される基本周波数パターンとの誤差を5%程度低減できることを示した。

報告書

(2件)

2005 実績報告書
2004 実績報告書

研究成果
(14件)

すべて 2006 2005 2004

すべて雑誌論文 (14件)

[雑誌論文] 韻律を用いた連続音声認識2006
- 著者名/発表者名
  広瀬啓吉
- 雑誌名
  
  韻律と音声言語情報処理-アクセント・イントネーション・リズムの科学-(丸善) 5章2節
  
  ページ: 163-173
- 関連する報告書
  2005 実績報告書
[雑誌論文] 韻律と音声認識2006
- 著者名/発表者名
  広瀬啓吉
- 雑誌名
  
  電子情報通信学会誌 (発表予定)
- 関連する報告書
  2005 実績報告書
[雑誌論文] Detection of fillers using prosodic features in spontaneous speech recognition of Japanese2006
- 著者名/発表者名
  Keikichi Hirose
- 雑誌名
  
  Proc.International Conference on Speech Prosody (発表予定)
- 関連する報告書
  2005 実績報告書
[雑誌論文] 韻律情報を用いた話し言葉音声認識におけるフィラー検出の改良2006
- 著者名/発表者名
  阿部悠
- 雑誌名
  
  情報処理学会(音声言語情報処理研究会)研究報告 2006-SLP-60-9
  
  ページ: 43-48
- 関連する報告書
  2005 実績報告書
[雑誌論文] 音声認識時の韻律利用によるフィラー検出2006
- 著者名/発表者名
  阿部悠
- 雑誌名
  
  日本音響学会講演論文集 CD-ROM
  
  ページ: 1213-1214
- 関連する報告書
  2005 実績報告書
[雑誌論文] 基本周波数パターン生成過程モデルのコーパスベースパラメータ自動抽出の評価2006
- 著者名/発表者名
  河村美由紀
- 雑誌名
  
  日本音響学会講演論文集 CD-ROM
  
  ページ: 387-388
- 関連する報告書
  2005 実績報告書
[雑誌論文] Filled pauses as cues to the complexity of following phrases2005
- 著者名/発表者名
  Michiko Watanabe
- 雑誌名
  
  Proc.9^<th> European Conference on Speech Communication and Technology (INTERSPEECH) CD-ROM
  
  ページ: 37-40
- 関連する報告書
  2005 実績報告書
[雑誌論文] Corpus-based extraction of F0 contour generation process model parameters2005
- 著者名/発表者名
  Keikichi Hirose
- 雑誌名
  
  Proc.9^<th> European Conference on Speech Communication and Technology (INTERSPEECH) CD-ROM
  
  ページ: 3257-3260
- 関連する報告書
  2005 実績報告書
[雑誌論文] 句境界のフィラーが聞き手の予測に及ぼす影響2005
- 著者名/発表者名
  渡辺美知子
- 雑誌名
  
  第19回日本音声学会全国大会予稿集
  
  ページ: 37-42
- 関連する報告書
  2005 実績報告書
[雑誌論文] フィラーの出現確率予測における節の種類と後続節長2005
- 著者名/発表者名
  渡辺美知子
- 雑誌名
  
  日本音響学会講演論文集 CD-ROM
  
  ページ: 319-320
- 関連する報告書
  2005 実績報告書
[雑誌論文] 韻律を利用した音声認識時のフィラー検出の高精度化2005
- 著者名/発表者名
  阿部悠
- 雑誌名
  
  日本音響学会講演論文集 CD-ROM
  
  ページ: 123-124
- 関連する報告書
  2005 実績報告書
[雑誌論文] F_0モデルパラメータの自動抽出における統計的手法の利用2005
- 著者名/発表者名
  古山悠介
- 雑誌名
  
  日本音響学会講演論文集 1
  
  ページ: 171-172
- 関連する報告書
  2004 実績報告書
[雑誌論文] Use of prosodic features for speech recognition2004
- 著者名/発表者名
  Keikichi Hiorse
- 雑誌名
  
  Proc.8^<th> International Conference on Spoken Language Processing 2
  
  ページ: 1445-1448
- 関連する報告書
  2004 実績報告書
[雑誌論文] N-gram language modeling of Japanese using bunsetsu boundaries2004
- 著者名/発表者名
  Sungyup Chung
- 雑誌名
  
  Proc.8^<th> International Conference on Spoken Language Processing 2
  
  ページ: 993-996
- 関連する報告書
  2004 実績報告書

文節境界を考慮した統計的言語モデルの高度化と音声認識への利用

研究代表者

広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

3,300千円 (直接経費: 3,300千円)

報告書

研究成果

[雑誌論文] 韻律を用いた連続音声認識2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 韻律と音声認識2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Detection of fillers using prosodic features in spontaneous speech recognition of Japanese2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 韻律情報を用いた話し言葉音声認識におけるフィラー検出の改良2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 音声認識時の韻律利用によるフィラー検出2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 基本周波数パターン生成過程モデルのコーパスベースパラメータ自動抽出の評価2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Filled pauses as cues to the complexity of following phrases2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Corpus-based extraction of F0 contour generation process model parameters2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 句境界のフィラーが聞き手の予測に及ぼす影響2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] フィラーの出現確率予測における節の種類と後続節長2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 韻律を利用した音声認識時のフィラー検出の高精度化2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] F_0モデルパラメータの自動抽出における統計的手法の利用2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Use of prosodic features for speech recognition2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] N-gram language modeling of Japanese using bunsetsu boundaries2004

著者名/発表者名

雑誌名

関連する報告書

広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)