講義音声には,多くの話し言葉的現象(フィラー,ポーズなど)が含まれる.講義音声を要約するには,それらの話し言葉的現象に対して頑健な自動音声認識を実現する必要がある.日本語話し言葉コーパスに収録された音声情報からポーズ出現位置に関するモデル(ポーズ挿入モデル)を学習し,ポーズ情報を含まないコーパス(国会会議録)を組み合わせることによって,ポーズに対応した言語モデルを構築する方法を提案し,その有効性を示した. また,講義音声に頻出する講義内容に特有の固有的な事物を,検出漏れをできるだけ少なく検出する方法について検討した.講義スライドと講義音声書き起こしとの人手対応付けの作業手順の作成を行った.
|