研究課題/領域番号 |
12480085
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 助教授 (00234104)
|
研究分担者 |
堂下 修司 龍谷大学, 理工学部, 教授 (00025925)
池田 克夫 大阪工業大学, 情報科学部, 教授 (30026009)
黒橋 禎夫 東京大学, 情報理工学系研究科, 助教授 (50263108)
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
佐藤 理史 京都大学, 情報学研究科, 助教授 (30205918)
|
キーワード | 音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram / 話者認識 |
研究概要 |
前年度までに研究・作成した講演音声の話し言葉を認識するためのモデルについてさらに検討を行い、講演の自動書き起こしシステムの高精度化を図り、評価を行った。また討論音声に対するモデル化・適用も行った。 まず、大語彙の話し言葉音声認識における言語モデルの教師なし話者適応について検討した。講演などの話し言葉においては、話題の他に文末表現などで発話の傾向やその発音が話者間で大きく異なるため、言語・発音モデルの話者性への適応が必要である。そこで、教師なし言語モデル話者適応手法として(1)認識結果を直接用いて適応する手法、及び(2)発話文単位で類似テキストを選択しそれを用いて適応する手法、を提案した。その上で発音変動のモデル化についても検討し、話者適応の枠組みに統合することで、言語表現の傾向と発音変動の両方を同時にモデル化した。実際の講演の音声認識実験において提案手法それぞれの有効性を確認した。 次に、討論音声の認識に対して言語モデルと音響モデルの検討を行った。討論音声には一般に利用可能な大規模テキスト・音声コーパスが存在しないため、言語モデル・音響モデルを討論音声から直接構築することができない。そのため本研究では、討論の言語的特徴を部分的にカバーする複数のモデルを混合して言語モデルを構築する。また、討論と比較的類似した音響的特徴を持つと考えられる講演音声から構築された音響モデルに、教師なし話者インデキシングの結果を利用して話者適応を行う。これらについて、実際の討論音声を用いて評価を行った。
|