研究概要 |
本研究は,世界の様々な自然言語(日本語や英語など)に共通して対応できる音声入力インタフェースを実現するために,対象とする言語とは別の音声データにより設計・構築された音声認識用モデルを当該の言語に「適応」する方法を検討し,その基礎的な知見を得ることを目指すものである. 今年度は,まず,音声認識において発声された音声信号に含まれる音響的情報をボトムアップに抽出する処理と,文法や意味などの情報をトップダウンに適用する処理とを統合して用いる方法を検討するため,音声信号の音響的特徴からの音韻性抽出技術について検討した.具体的には,従来から検討を進めている「マルチバンド音声認識」と呼ばれる認識手法について,特に雑音下という環境を考慮した上で,認識アルゴリズムの改善および様々な条件での認識実験を行い,性能を評価した.文法や意味情報の共通したモデル化が困難である多言語の処理において,実験結果から得られた知見が有用である. 次に,多言語音声入力インタフェースを検討するために,でき,る限り多くの言語音声データを収集し,それらの音響的特徴や音韻構造などの情報を調査・分析した.さらに,複数の言語の音声データに対して(i)単純に混合して学習,(ii)各々を独立に学習,(iii)言語適応化学習,の3通りの学習方法によりボトムアップ情報を用いた音韻モデルを作成し,音韻識別性能を検討した.具体的には,比較的入手が容易な英語,日本語に加えて,モンゴル語の音声データを収集し,上記のボトムアップ情報を用いた音韻性抽出実験を行った.この結果より,言語による音声特徴のバラツキ(分散)や相関性について検討することができた.
|