2002 Fiscal Year Annual Research Report
講演・会議音声の自動書き起こしのための柔軟な音声言語処理モデル
Project/Area Number |
12480085
|
Research Institution | KYOTO UNIVERSITY |
Principal Investigator |
河原 達也 京都大学, 情報学研究科, 助教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
堂下 修司 龍谷大学, 理工学部, 教授 (00025925)
池田 克夫 大阪工業大学, 情報科学部, 教授 (30026009)
黒橋 禎夫 東京大学, 情報理工学系研究科, 助教授 (50263108)
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
佐藤 理史 京都大学, 情報学研究科, 助教授 (30205918)
|
Keywords | 音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram / 話者認識 |
Research Abstract |
前年度までに研究・作成した講演音声の話し言葉を認識するためのモデルについてさらに検討を行い、講演の自動書き起こしシステムの高精度化を図り、評価を行った。また討論音声に対するモデル化・適用も行った。 まず、大語彙の話し言葉音声認識における言語モデルの教師なし話者適応について検討した。講演などの話し言葉においては、話題の他に文末表現などで発話の傾向やその発音が話者間で大きく異なるため、言語・発音モデルの話者性への適応が必要である。そこで、教師なし言語モデル話者適応手法として(1)認識結果を直接用いて適応する手法、及び(2)発話文単位で類似テキストを選択しそれを用いて適応する手法、を提案した。その上で発音変動のモデル化についても検討し、話者適応の枠組みに統合することで、言語表現の傾向と発音変動の両方を同時にモデル化した。実際の講演の音声認識実験において提案手法それぞれの有効性を確認した。 次に、討論音声の認識に対して言語モデルと音響モデルの検討を行った。討論音声には一般に利用可能な大規模テキスト・音声コーパスが存在しないため、言語モデル・音響モデルを討論音声から直接構築することができない。そのため本研究では、討論の言語的特徴を部分的にカバーする複数のモデルを混合して言語モデルを構築する。また、討論と比較的類似した音響的特徴を持つと考えられる講演音声から構築された音響モデルに、教師なし話者インデキシングの結果を利用して話者適応を行う。これらについて、実際の討論音声を用いて評価を行った。
|
Research Products
(6 results)
-
[Publications] T.Kawahara: "Automatic indexing of lecture speech by extracting topic-independent discourse mark-ers"Proc. IEEE-ICASSP. 1. 1-4 (2002)
-
[Publications] 河原達也: "連続音声認識コンソーシアム2001年度版ソフトウエアの概要"情報処理学会研究報告. SLP-43-3. (2002)
-
[Publications] 南條浩輝: "大規模な日本語話し言葉データベースを用いた講演音声認識"電子情報通信学会論文誌. J86-DII,4. (2003)
-
[Publications] 長谷川将宏: "談話標識の抽出に基づいた講演音声の自動インデキシング"情報処理学会論文誌. 43,7. 2222-2229 (2002)
-
[Publications] 李晃伸: "音素環境独立HMMを用いた混合ガウス分布選択による音響尤度計算の削減"情報処理学会論文誌. 43,7. 2214-2221 (2002)
-
[Publications] H.Nanjo: "Speaking-rate dependent decoding and adaptation for spontaneous lecture speech recognition"Proc. IEEE-ICASSP. 1. 725-727 (2002)