講義音声には,話し言葉的現象(フィラー,ポーズ,言い淀み,言い直しなど)と,講義内容に特有の事物を表すための固有表現が頻出する.最初に,講義音声に対して頑健な自動音声認識を実現する研究を行った.日本語話し言葉コーパスに収録された音声情報からポーズ出現位置に関するポーズ挿入モデルを学習し,ポーズ情報を含まない国会会議録コーパスとポーズ挿入モデルを組み合わせることによって,ポーズに対応した言語モデルを構築する方法を提案した.言い淀み・言い直しについては,国会会議録コーパスと音声情報の音響的素性による強制アラインメントと,強制アラインメントによって得られた素性に基づいて整形個所を検出する識別器を用いて,言い淀み・言い直し情報が整形されて失われている国会会議録コーパスから言い淀み・言い直しに対応した言語モデルを構築する方法を検討した.固有表現については,言語モデルを調整して,固有表現を再現率良く検出する方法を検討した. また,日本語には,複数の語がひとかたまりの表現として非構成的な意味を持ち,機能的関係を表すようになった機能表現が多数存在する.含意関係抽出を行うには,意味的に類似している内容語だけでなく,意味的に類似している機能語と機能表現(例えば,「について」と「に関して」)の差異を吸収する必要がある.その前段階として,多種多様な機能表現の用法を判定する方法について検討した. 講義スライドに基づいて講義音声を要約するため,講義スライドと講義音声書き起こしとの人手対応付け(正解データの作成)を行った.最初に,小規模データを対象として,複数の作業者(研究代表者を含む)が対応付けを試みたところ,作業者間の一致度がかなり低いことを見出した.そのため,人手対応作業手順書の整備を行った.その上で,複数講義の講義スライドと講義音声書き起こしの人手対応付けを行い,対応付けの自動推定を試みた.
|