研究課題/領域番号 |
10680382
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
鹿野 清宏 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00263426)
|
研究分担者 |
陸 金林 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (50230868)
中村 哲 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30263429)
|
キーワード | 連続音声認識 / 話者適応 / 環境適応 / タスク適応 |
研究概要 |
IPA(情報処理振興事業協会)「日本語ディクテーション基本ソフトウエア」のプロジェクトで公開した新聞記事のディクテーションプログラムは、2万単語を含む連続発声音声を、10%以下の単語誤り率で認識することができる。しかし、この性能は、静かな部屋で新聞記事を読み上げた条件での値である。実環境下では、(a)ディクテーションの対象(タスク)への言語モデルの適応、(b)音韻モデルの話者および発生環境への適応、が必要となってくる。 今年度は、上記の(a)、(b)の項目に関して、下記の研究を行なった。 (a)言語モデルの適応 (1)ディクテーションシステムの語彙数を2万語から6万語に拡張して性能を調べた。とくに、未知語に対して有効な言語モデルとして、読みを考慮した言語モデルを取り上げて性能の評価を行なった。 (2)新聞記事の掲載面の情報をトピックスとみなして、トピックスごとの言語モデルの有効性を調べたが、有意な結果は得られなかった。 (b)音韻モデルの環境適応 (1)自動車内のでの環境を考慮した音韻モデルの作成を行なった。クリーンな音声データベースを擬似的に車内音声に変更するために、車内で収集した雑音とインパルスレスポンスを利用して擬似車内音声データベースを作成して、音韻モデルを学習することが非常に有効であることを確かめた。 (2)発声者の少量の音声から、発声者に近い話者データベースを検索して、発声者に適した音韻モデルを簡単に構築するアルゴリズムを考案し、有効性を確かめる準備を始めた。
|