現在音声データベースからの知識発見として、以下の3つが強く期待されている。 1.大規模音声データベースに基づく、最適な音素モデルの構造の発見と認識のための最適認識単位の発見 2.大規模言語データベースに基づく、最適な言語モデルの構造の発見 3.大規模音声ライブラリからの話題(複数)の発見と、話題の切れ目の発見。また、各話題のキーワードの自動抽出 4.上記3課題を遂行するための、音声自動ラベリングシステムや、ホルマント、基本周波数の自動抽出システムの構築 以上の課題に対して平成10年度は、まず類似性に基づく音素モデルの構造の自動発見法を提案し、従来のHMMに基づく音素モデルや、要因を考慮して作成されたHMnetよりも高性能であることを示した。また、音声自動ラベリングシステム、基本周波数抽出システムを構築した。平成11年度は、平成10年度の成果に基づいて、認識のための最適認識単位の発見、また同じ方法に基づく最適な言語モデルの構造の発見、基本周波数に基づく話題のキーワード推定法を提案した。認識のための最適単位としては、母音+子音の組み合わせが比較的多いことが明かになった。また、毎日新聞データベースを用いて、言語モデルの構造の推定を行なったところ、文節に対応した単位を見つけることができ、かつトライグラムよりも性能が良かった。基本周波数を用いることによって、従来抽出できなかったキーワードの抽出が可能であることも明らかになった。
|