• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2000 年度 実績報告書

講演・会議音声の自動書き起こしのための柔軟な音声言語処理モデル

研究課題

研究課題/領域番号 12480085
研究機関京都大学

研究代表者

河原 達也  京都大学, 情報学研究科, 助教授 (00234104)

研究分担者 堂下 修司  龍谷大学, 理工学部, 教授 (00025925)
池田 克夫  京都大学, 情報学研究科, 教授 (30026009)
黒橋 禎夫  京都大学, 情報学研究科, 講師 (50263108)
キーワード音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram
研究概要

講演音声を自動的に書き起こすための音声認識用モデルについて研究を進めてきた。まず、実際の学会講演の音声・テキストデータベース(47時間分・186講演)を用いて、ベースラインとなる音響モデル・言語モデルを作成した。音響モデルはtriphone HMMであり、言語モデルは単語trigramである。その上で、それぞれの高精度化を図った。
音響モデルの高精度化には、発話速度の速い音素セグメントに対するモデル化が必要であると考え、音素モデルに飛び越し遷移を許すモデル、発話速度別音素モデル、発話速度別音節モデルを考案し評価した。その結果、若干の認識率の向上を得たが、速い音素区間に対応すると共に、十分な学習データ量を確保することの重要性を確認した。
言語モデルの学習には、書き起こしだけではデータ量が十分でないので、利用可能な種々のテキストコーパスを混合することを考えた。タスクに合致した書き起こしテキストをターゲットとした削除補間法により混合重みを自動的に最適化する方法を考案した。Web講演録との混合において、単純に1:1の比で混合すると性能は逆に低下したが、混合重みを最適化した結果パープレキシティが改善され、認識精度も向上した。
この結果、テストセットの学会講演に対して、63%の単語認識精度を実現した。今後さらなる高精度化のための研究を進めていく予定である。

  • 研究成果

    (7件)

すべて その他

すべて 文献書誌 (7件)

  • [文献書誌] 河原達也: "日本語ディクテーション基本ソフトウェア(99年度版)"日本音響学会誌. 57,3. 210-214 (2001)

  • [文献書誌] 李晃伸: "Phonetic Tied-Mixtureモデルを用いた大語彙連続音声認識"電子情報通信学会論文誌. J83-DII,12. 2517-2525 (2000)

  • [文献書誌] K.Komatani: "Flexible mixed-initiative dialogue management using concept-level confidence measures of speech recognizer output"Proc.Int'l Conf.Computational Linguistics(COLING). 467-473 (2000)

  • [文献書誌] K.Kato: "Automatic Transcription of Lecture Speech using Topic-Independent Language Modeling"Proc.Int'l Conf.Spoken Language Processing(ICSLP). 1. 162-165 (2000)

  • [文献書誌] 河原達也: "話し言葉音声認識の概観"電子情報通信学会技術研究報告. SP2000-95. (2000)

  • [文献書誌] 加藤一臣: "講演音声認識のための音響・言語モデルの検討"電子情報通信学会技術研究報告. SP2000-97. (2000)

  • [文献書誌] 鹿野清宏: "音声認識システム"オーム社. (2001)

URL: 

公開日: 2002-04-03   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi