2011 Fiscal Year Annual Research Report
Project/Area Number |
21700193
|
Research Institution | Kyoto University |
Principal Investigator |
秋田 祐哉 京都大学, 学術情報メディアセンター, 助教 (90402742)
|
Keywords | 話し言葉 / 音声認識 / 自動整形 / モデル化 |
Research Abstract |
本研究課題では,話し言葉音声認識の応用性を高めるための基本・基盤技術として,話し言葉を可読性の高い整形文(書き言葉)に自動変換する手法の確立を目指している.平成23年度では,この一環である句読点の自動挿入,および字幕を想定した音声認識結果の整形処理について検討を行った.本研究の前提となる話し言葉音声認識システムの改善もあわせて図っている. 読点の挿入は句点よりも高頻度でかつ主観的であることから,人により読点の挿入箇所は大きく異なり,単一の学習ラベルでは必ずしも信頼できないといえる.そこで本研究では,複数のアノテータにより付与された異なる句読点ラベルを利用し,句読点の自動挿入を試みた.本手法では条件付き確率場(CRF)により自動挿入を行うが,各アノテータによる句読点には相違があるため,各アノテータの句読点挿入傾向を個別にCRFでモデル化し,これらを投票の枠組みで組み合わせることでより信頼できる挿入を目指した.日本語話し言葉コーパス(CSJ)の講演音声における評価では,これらの個別モデルを組み合わせることで,アノテータに共通の基準,およびアノテータ個別の基準に基づく読点に対して挿入性能の改善を得ることができた.これらの成果について,情報処理学会研究会(2011年7月)やISCA Interspeech2011(国際会議,2011年8月)で報告を行った. 講演などを対象とした字幕では,情報をできる限り保持する一方,読みやすいように文を短縮することが重要といえる.この観点から,音声認識結果に対して,書き言葉のスタイルへの変換と文の短縮からなる整形を検討した.このほか,本手法と関連の深い,スタイルの変換手法に基づく話し言葉音声認識システムについて2012年日本音響学会春季研究発表会(2012年3月)で報告している.
|