研究概要 |
平成23年度は,音声検索エンジンの基本性能改良と共に,放送大学と共同で講義ビデオ検索を対象にフィジビリ評価実験を行い,大規模音声ドキュメントを対象とするシステム検証と課題抽出に注力した。 1.音声-音素変換器の開発では,未知語に対する検索性能を保証するため,調音特徴ベースの高精度サブワード音声認識エンジンの設計を進めた。具体的には,(1)調音特徴抽出器(2段のMLNから構成)の精度向上,(2)音素認識HMMに対する最適設計検討(状態数,コンテキスト,IPによる湧出し制御他),(3)約1,500種の日本語全短・長音節に対する言語モデル(tri-gram)を作成した。(1)では抽出器に部分空間(固有ベクトル)を組込む方式を新たに開発し性能向上に目途を得た。(2)では従来の調音特徴に対して,最適化したHMMにより音素正解精度で80%を越える性能を得た。今後(3)のサブワード言語モデルを組合せ,さらなる性能向上を目指す。 2.キーワード高速検索では,今年度,NTCIR9のSTD (Spoken Term Detection)に参加し,参加機関中最速の評価を得た。さらに使用記億容量に対しても他機関と比較し極少なくて済むことを明らかにした。 3.放送大学の講義ビデオ(20講義)の一部を使用し,各講義10キーワード(未知語含む)の検索評価実を行った。また,音声から直接人手で書き下したデータを作成し,音素認識評価を同時に実施した。この結果,放送大学講義ビデオに関しては,通常の講義音声コーパスと比較しても音素正解精度が高く,応用システムを構築できる感触が得られた。 H24の最終年度は,引き続き検索性能(キーワード抽出性能および検索速度)の向上を計ると共に,3.の講義ビデオ内容検索を対象に,システム構築と方式実証実験を通して,大規模音声ドキュメントでの実用化を検証したい。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
高性能音声-音素変換器と,サフィックスアレーに基づくにキーワード高速検索器の結合テストが,最終年度になっているが,これまでの処,順調に推移しているため。
|
今後の研究の推進方策 |
最終年度に向け,個々のモジュールの性能(キーワード抽出および検索速度)向上を計ると共に,放送大学講義ビデオに対する内容検索を対象に,システム構築と方式実証実験を行い,大規模音声ドキュメントでの実用化を検証する。
|