研究初年にあたる平成17年度においては、発話内容を認識しその内容を画面にスーパーインポーズする操作を行うシステムの構築と、研究計画に従い主に音声認識分野での研究を進めた。従来、本研究が対象とするような大学での講義などの音声は、非常に変化が激しい自然発話音声の一つであるため認識が困難であることが、他の研究などから指摘されていた。そこで本研究では2つのアプローチにより、自然発話音声の音声認識精度の向上を図った。 1つ目は、自然発話音声の音響的特徴に注目した方法である。従来から自然発話音声は同じ発話者の発声であっても、発話速度が異なれば音響的特徴が異なることが知られていた。そこで本研究では、こういった音声を複数の音響モデルを1つにまとめたマルチパス音響モデルを用いてモデル化することにし、その学習サンプルをどの音響モデルの学習に用いればよいのかを効率的かつ高精度に決定する方法として「オールスターモデル選択法」の提案を行った。また、さらに高精度なモデルを得るため反復的にオールスターモデル選択法の適用を行う方法についても提案を行った。また、その結果有意な認識率の改善が得られることを確認できた。なお、この詳細についての論文投稿の準備を行っている。 2つ目は、上記の方法でもなお発生する認識の誤りのうち、音素の持続時間が通常とは極端に異なるものに対する対処法の検討である。これに対しては、事前に獲得された持続時間の知識を用いて持続時間の誤りを排除する方法の提案を行った。特に持続時間の知識を用いる時、従来は検討されていなかった発話速度や文内の位置などの言語的特徴の影響をモデルに取り込み高精度に持続時間の予測を可能とした。音声認識にこのモデルを用いることで有意に認識精度の改善が得られることを確認した。この詳細については日本音響学会2006年春季研究発表会で発表するとともに論文を投稿中である。
|