2000 Fiscal Year Annual Research Report
講演・会議音声の自動書き起こしのための柔軟な音声言語処理モデル
Project/Area Number |
12480085
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 情報学研究科, 助教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
堂下 修司 龍谷大学, 理工学部, 教授 (00025925)
池田 克夫 京都大学, 情報学研究科, 教授 (30026009)
黒橋 禎夫 京都大学, 情報学研究科, 講師 (50263108)
|
Keywords | 音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram |
Research Abstract |
講演音声を自動的に書き起こすための音声認識用モデルについて研究を進めてきた。まず、実際の学会講演の音声・テキストデータベース(47時間分・186講演)を用いて、ベースラインとなる音響モデル・言語モデルを作成した。音響モデルはtriphone HMMであり、言語モデルは単語trigramである。その上で、それぞれの高精度化を図った。 音響モデルの高精度化には、発話速度の速い音素セグメントに対するモデル化が必要であると考え、音素モデルに飛び越し遷移を許すモデル、発話速度別音素モデル、発話速度別音節モデルを考案し評価した。その結果、若干の認識率の向上を得たが、速い音素区間に対応すると共に、十分な学習データ量を確保することの重要性を確認した。 言語モデルの学習には、書き起こしだけではデータ量が十分でないので、利用可能な種々のテキストコーパスを混合することを考えた。タスクに合致した書き起こしテキストをターゲットとした削除補間法により混合重みを自動的に最適化する方法を考案した。Web講演録との混合において、単純に1:1の比で混合すると性能は逆に低下したが、混合重みを最適化した結果パープレキシティが改善され、認識精度も向上した。 この結果、テストセットの学会講演に対して、63%の単語認識精度を実現した。今後さらなる高精度化のための研究を進めていく予定である。
|
Research Products
(7 results)
-
[Publications] 河原達也: "日本語ディクテーション基本ソフトウェア(99年度版)"日本音響学会誌. 57,3. 210-214 (2001)
-
[Publications] 李晃伸: "Phonetic Tied-Mixtureモデルを用いた大語彙連続音声認識"電子情報通信学会論文誌. J83-DII,12. 2517-2525 (2000)
-
[Publications] K.Komatani: "Flexible mixed-initiative dialogue management using concept-level confidence measures of speech recognizer output"Proc.Int'l Conf.Computational Linguistics(COLING). 467-473 (2000)
-
[Publications] K.Kato: "Automatic Transcription of Lecture Speech using Topic-Independent Language Modeling"Proc.Int'l Conf.Spoken Language Processing(ICSLP). 1. 162-165 (2000)
-
[Publications] 河原達也: "話し言葉音声認識の概観"電子情報通信学会技術研究報告. SP2000-95. (2000)
-
[Publications] 加藤一臣: "講演音声認識のための音響・言語モデルの検討"電子情報通信学会技術研究報告. SP2000-97. (2000)
-
[Publications] 鹿野清宏: "音声認識システム"オーム社. (2001)