• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

文節境界を考慮した統計的言語モデルの高度化と音声認識への利用

研究課題

研究課題/領域番号 16650034
研究機関東京大学

研究代表者

広瀬 啓吉  東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

研究分担者 峯松 信明  東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)
キーワード言語モデル / 文節境界 / 音声認識 / 韻律的特徴 / Tri-gram / Filler / 自発発話音声 / 生成過程モデル
研究概要

日本語の言語構造・発話構造を考慮した新しい統計的言語モデルを開発した上で、それを音声認識システムに組み込む有効な方策を開発することを目的として以下の成果を達成した。
1.文節境界をまたぐ場合とまたがない場合のtri-gramモデルを学習し、従来のtri-gramモデルと比較し、8%程度以上のperplexityの減少が可能なことを示した。さらに、連続音声認識用openソフトウエアJuliusの第2パスに作成したtri-gramモデルを実装し、JNAS音声コーパスの音声サンプルについて認識実験を行った。新聞記事1年分で学習した言語モデルを用いた場合、提案した言語モデルを用いることにより、従来と比較して8%程度の認識率の改善が得られた。新聞記事3年分で学習した言語モデルを用いた場合には、顕著な改善効果は得られなかった。この観点から、提案したモデルは特に十分な学習コーパスが得られないときに有効であることが推察される。
2.上記は朗読音声に対する成果である。これを自発発話音声に発展させるため、自発発話で多く見られるFillerが深い文節境界で生起する確率が高いことに着目し、Fillerを検出するための韻律モジュールを開発した。当該形態素の韻律的特徴等を入力パラメータとする4層パーセプトロンで韻律モジュールを構築し、74%程度のフィラー検出率を達成した。この韻律モジュールをJuliusに組み込むことにより、90%を超えるRecall率を達成した。今後は、これをもとにFillerを考慮した言語モデルを作成し、自由発話音声の認識に用いる手法の開発を進める。
3.観測される基本周波数パターンと生成過程モデルにより生成される基本周波数パターンとの差分を、文の言語情報、音素情報、指令パラメータから推定する手法を開発し、観測される基本周波数パターンとの誤差を5%程度低減できることを示した。

  • 研究成果

    (11件)

すべて 2006 2005

すべて 雑誌論文 (11件)

  • [雑誌論文] 韻律を用いた連続音声認識2006

    • 著者名/発表者名
      広瀬啓吉
    • 雑誌名

      韻律と音声言語情報処理-アクセント・イントネーション・リズムの科学-(丸善) 5章2節

      ページ: 163-173

  • [雑誌論文] 韻律と音声認識2006

    • 著者名/発表者名
      広瀬啓吉
    • 雑誌名

      電子情報通信学会誌 (発表予定)

  • [雑誌論文] Detection of fillers using prosodic features in spontaneous speech recognition of Japanese2006

    • 著者名/発表者名
      Keikichi Hirose
    • 雑誌名

      Proc.International Conference on Speech Prosody (発表予定)

  • [雑誌論文] 韻律情報を用いた話し言葉音声認識におけるフィラー検出の改良2006

    • 著者名/発表者名
      阿部悠
    • 雑誌名

      情報処理学会(音声言語情報処理研究会)研究報告 2006-SLP-60-9

      ページ: 43-48

  • [雑誌論文] 音声認識時の韻律利用によるフィラー検出2006

    • 著者名/発表者名
      阿部悠
    • 雑誌名

      日本音響学会講演論文集 CD-ROM

      ページ: 1213-1214

  • [雑誌論文] 基本周波数パターン生成過程モデルのコーパスベースパラメータ自動抽出の評価2006

    • 著者名/発表者名
      河村美由紀
    • 雑誌名

      日本音響学会講演論文集 CD-ROM

      ページ: 387-388

  • [雑誌論文] Filled pauses as cues to the complexity of following phrases2005

    • 著者名/発表者名
      Michiko Watanabe
    • 雑誌名

      Proc.9^<th> European Conference on Speech Communication and Technology (INTERSPEECH) CD-ROM

      ページ: 37-40

  • [雑誌論文] Corpus-based extraction of F0 contour generation process model parameters2005

    • 著者名/発表者名
      Keikichi Hirose
    • 雑誌名

      Proc.9^<th> European Conference on Speech Communication and Technology (INTERSPEECH) CD-ROM

      ページ: 3257-3260

  • [雑誌論文] 句境界のフィラーが聞き手の予測に及ぼす影響2005

    • 著者名/発表者名
      渡辺美知子
    • 雑誌名

      第19回日本音声学会全国大会予稿集

      ページ: 37-42

  • [雑誌論文] フィラーの出現確率予測における節の種類と後続節長2005

    • 著者名/発表者名
      渡辺美知子
    • 雑誌名

      日本音響学会講演論文集 CD-ROM

      ページ: 319-320

  • [雑誌論文] 韻律を利用した音声認識時のフィラー検出の高精度化2005

    • 著者名/発表者名
      阿部悠
    • 雑誌名

      日本音響学会講演論文集 CD-ROM

      ページ: 123-124

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi