2016 Fiscal Year Annual Research Report
Acoustic-to-articulatory conversion based on integration of EMA-based measurement and statistical media conversion techniques
Project/Area Number |
15K12059
|
Research Institution | The University of Tokyo |
Principal Investigator |
峯松 信明 東京大学, 大学院工学系研究科(工学部), 教授 (90273333)
|
Co-Investigator(Kenkyū-buntansha) |
齋藤 大輔 東京大学, 大学院工学系研究科(工学部), 講師 (40615150)
|
Project Period (FY) |
2015-04-01 – 2017-03-31
|
Keywords | 音声・調音推定 / EMA / パラレルコーパス / 話者正規化 / 音声の構造的表象 / 外国語学習 |
Outline of Annual Research Achievements |
本研究では,調音測定技術,音響測定技術,及び,統計的メディア変換技術を統合することで,音声信号のみから調音器官(主として舌)運動の様子を高精度に推定する基盤技術の構築を目的として行われた。なお,このために必要な基盤インフラの構築や,構築した技術の外国語発音教育支援への応用についても検討した。研究成果としては, 1)EMA(Electro-Magnetic Articulograph)を用いて,一人の日中バイリンガル話者を対象に,日中各言語の音声信号・調音運動パラレルコーパスを構築した。従来は単一言語のパラレルコーパスのみが公開されており,同一話者・複数言語のコーパスは初めてである。 2)EMA によるパラレルコーパスを用いて,音声からの調音推定技術を,音声変換をタスクとして広く使われるようになった統計的(声質)変換技術の応用として検討した。ここでは, 2-1)パラレルコーパス構築用話者とは異なる話者の音声からの調音推定を目的とした,話者正規化・話者適応技術, 2-2)(外国語学習応用を目的とし)当該話者が発声に困難を抱える特定音素の調音運動(その話者が学習の末に可能となるであろう調音運動)の推定技術, を中心に技術開発を行なった。前者では話者正規化と調音推定を縦続的に行なう手法と,統合的に行なう方法を検討し,後者では,音声の構造的表象という比較的新しい音声の表象手法を導入することで技術的実現を図った。いずれの成果も音声工学のトップ・カンファレンスで発表することができ,国内外に本成果をアピールすることができた。
|