研究概要 |
現在,マルチメディア情報のライブラリ化が急速に進められている.音声情報においてもニュースなどを自動的にライブラリ化していくことが強く望まれている.自動ライブラリ化は,発声内容が文字情報として与えられている場合とそうでない場合に分けることができる.与えられている場合には,文字情報と音声情報を対応させることが必要であり,そうでない場合には,音声情報のみから話題の要約が必要になる. 本研究では,発声内容に関する文字情報が与えられた場合とそうでない場合に分けて研究を行った.文字情報が与えられた場合には,音声情報と言語情報を対応させるために,高精度な音素モデルと高精度な対応付けの方法が必要になる.文字情報が与えられない場合には,汎用の言語モデルや,音声区間の類似性を高速に計算する方法が必要になる.本年度はこれらの研究目的を達成するために,以下の3項目について研究を行った. 1. 音声情報と文字情報を対応させるための高精度音素モデルの自動構築法の開発. 2. 高精度音素モデルを用いた音声情報と文字情報の高精度対応づけ(自動音素ラベリング)の方法の開発. 3. 音響的類似性を利用した,発声内容をあらわすキーワードの自動抽出法の開発. 研究項目の1番目に関しては,従来利用されていた方法より高精度な音素モデルを自動的に構築することができた.この方法は事前に要因を規定する必要がないので,要因を規定できない言語モデルの獲得や認識単位の自動設定などへの応用も可能である.しかし,まだ十分なものとは言えず,一層の高精度化が必要である.研究項目の2番目に関しては,一層の高精度化にはパラメータの差分情報や周波数上の利用が必要である.研究項目の3番目に関しては,音響的類似性のみから高頻度で発声されている共通区間を自動的に抽出する手法を開発した.しかし,「〜ました」などの話題に依存しない単語も検出された.今後これらの付属語を除去するために,基本周波数情報や言語情報の利用が必要になると考えている.
|