Budget Amount *help |
¥1,300,000 (Direct Cost: ¥1,300,000)
Fiscal Year 2012: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
|
Research Abstract |
大規模な話し言葉のコーパス(音声言語データベース)は,様々な音声言語処理タスクにおいて重要である.しかし,話し言葉を正確に書き起こす作業は極めて高いコストを必要とするため,あらゆるドメインに対して,そのようなコーパスが入手できると仮定することは現実的ではない.それに対して,速記録や会議録は,正確な書き起こしより広く作成されており,比較的容易に入手が可能である.ただし,速記録や会議録では,可読性を高めるために,間投詞や言い淀み,言い直しなどの話し言葉特有の現象は削除され,話し言葉特有の言い回しは適切な書き言葉に置き換えられるなど,様々な整形処理がなされていることが一般的である.従って、このようなコーパスを,音声認識用音響モデルの学習に直接的に用いることは困難であった. そこで,本年度は,著者らが従来提案してきた速記録や会議録(整形された書き起こし)から正確に書き起こされた箇所を自動検出する手法を改良した.提案手法では,まず,整形された書き起こしとその原音声とでアラインメントを行い,アラインメントによって得られた素性に基づくSupport Vector Machine(SVM)を用いて,正確に書き起こされた箇所を自動検出する.従来手法とは異なり,音節を単位とする音響的素性を用いることで,検出精度を改善することができた.また,国会会議録を対象とした評価実験により,提案手法を用いて検出された正確な書き起こしは,音声認識用音響モデルの話者適応用データとして有効であることを示した.
|