研究概要 |
本研究は,世界の様々な自然言語(日本語や英語など)に共通して対応できる音声入力インタフェースを実現するために,対象とする言語とは別の音声データにより設計・構築された音声認識用モデルを当該の言語に「適応」する方法を検討し,その基礎的な知見を得ることを目指すものである. 研究2年目の今年度は,まず,言語適応化学習の検討および音声入力インタフェースの設計を行った.具体的には,日本語および英語の音声データベース(数百名以上の話者による大規模なもの)を基準モデルとして,多言語(中国語,フランス語,インドネシア語など)の少量の音声に対する言語適応化学習を行う音声入力インタフェースを作成した.この際,音韻体系の記述以外の言語モデル(文法等)は特に設定しなかったが,将来何らかの方法で多言語の文法記述およびその変換が行えるようになった場合にそのまま適用できるような音響モデルの設計を試みた. 次に,言語識別学習の検討として,上述のインタフェース設計から派生して,11の異なる言語の識別を行うシステムを設計し,1言語あたり100単語のデータベースを用いた簡単な言語識別実験を行った.この際,各言語の音響的特徴と言語的特徴とを効果的に抽出する方法を検討し,言語適応化における基礎モデルの設計に役立てることができた. 研究成果の一部は,日本音響学会2003年春季研究発表会(2003年3月18日〜20日,早稲田大学)にて「多言語識別における音韻性パターンの利用に関する検討」なる題目で発表した.また,フランスのコンピエーニュ工科大学との共同研究テーマと合わせて「Analysis of rhythm-based methods for language identification」なる報告書にまとめることができた.
|