2012 Fiscal Year Research-status Report

音声－調音特徴変換に基づく発音動作可視化の研究

Research Project

Project/Area Number	24720254
Research Category	Grant-in-Aid for Young Scientists (B)
Research Institution	Toyohashi University of Technology
Principal Investigator	入部百合絵豊橋技術科学大学, 情報メディア基盤センター, 助教 (40397500)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	発音訓練 / 外国語教育 / 調音運動
Research Abstract	本研究では，face-to-face における教師のように学習者の誤った調音の仕方を的確に指導する．そのため，音声からその調音特徴を抽出し，学習者の調音動作をCG アニメーションにより可視化する．正面の口唇と口蓋断面に対して，学習者の調音動作と正しい調音動作を比較提示する．このように調音動作を視覚的に直接観察することは教育効果が高いと言われている．以上のことを実現するため，初年度である平成24年度は音声から調音動作の特徴量である調音特徴を精緻に抽出するアルゴリズムを開発する．具体的には以下の通りである．人間は，子音(k, s, b, …)や母音(a, i , ..) を音声器官を制御しながら生成しており，生成に寄与する音声器官の動きを調音動作という．人間の調音動作を正確に可視化するためには，この調音動作の情報を詳細に取得する必要がある．そこで，本研究では調音位置や調音方法を示す属性（半母音，鼻音，無声音，有声音，持続性，破擦性，破裂性，舌端性，後舌母音，前方性，低母音，高母音など）を数値化（連続値）した調音特徴を音声から取得することを試みる．音声から調音特徴へ変換するために，音声スペクトルを多層ニューラルネットワーク（MLN）の識別器に通すことで調音特徴を獲得する．特に，調音特徴抽出アルゴリズムの課題であった強調/抑制および無音区間の歪を解決するために，ニューラルネットワーク1段目の出力に対し正規化処理を行った．これにより，5%の向上が見られ83%の調音特徴抽出精度を得た．また，音声に含まれる多様な変動成分（言語音声以外の性別や年齢による違いなど）が，調音特徴抽出精度に影響し，音素認識性能が飽和してしまう問題があったため，音素共通部分空間を結合重みとした調音運動MLNを改良した．これにより文中に含まれる音素の認識正解精度は約75.7%となった．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当該年度の目標は音声から調音動作の特徴量である調音特徴を精緻に抽出するアルゴリズムを開発することにある．そこで，調音位置や調音方法を示す属性（半母音，鼻音，無声音，有声音，持続性，破擦性，破裂性，舌端性，後舌母音，前方性，低母音，高母音など）を数値化（連続値）した調音特徴を音声から取得するため，音声スペクトルを多層ニューラルネットワーク（MLN）の識別器に通すことで調音特徴を獲得する抽出器を開発した．また，調音特徴抽出精度95%を目標数値として取り組んだ．現在のところ，調音特徴系列の強調/抑制および無音区間の歪を解決するために，ニューラルネットワーク1段目の出力に対し正規化処理を行ったところ，5%の向上が見られ83%の調音特徴抽出精度を得た．また，音声に含まれる多様な変動成分（言語音声以外の性別や年齢による違いなど）が，調音特徴抽出精度に影響し，音素認識性能が飽和してしまう問題があったため，音素共通部分空間を結合重みとした調音運動MLNを改良した．これにより文中に含まれる音素の認識正解精度は約75.7%となった．以上のように，調音特徴抽出アルゴリズムを開発し，目標数値も9割近く達成したため，研究の達成度はおおむね順調と判断した．
Strategy for Future Research Activity	今後は初年度に目標数値を達成できなかった調音特徴抽出精度の向上を目指し，線形判別分析（Linear Discriminant Analysis; LDA）やカーネルトリックを用いた非線形写像など，双対空間を求める手法を比較検討する予定である．また，人間の自然な調音動作を表現するため，実際に人間が発話した様子を撮影したMRI（磁気共鳴画像装置）に基づきアニメーションを生成する．始めに，初年度に開発した調音特徴抽出手法に基づき，複数人の発話を撮影したMRI データに含まれる音声を調音特徴に変換する．そして，MRI 画像に映し出されている各調音器官の輪郭に沿って特徴点（座標ベクトル）を検出する．次に，調音特徴を入力とした識別器に先の特徴点を教師信号として与える．これにより，学習者の音声から抽出した調音特徴を特徴点を学習した識別器へ通すことで，学習者の調音動作に適した特徴点を獲得する．アニメーションはこの特徴点をもとに自動生成する．以上の手法により，今後は調音動作アニメーションを自動的に生成する調音アニメ生成器を開発する（目標数値：実際に発話した様子を撮影したMRI データとの相関係数0.80 以上）．
Expenditure Plans for the Next FY Research Funding	2年目の平成25年度は調音動作アニメーションを生成するために，人間の調音器官の運動を測定する必要がある．そのため，発話運動測定装置のレンタル代，データ収集のための打ち合わせ旅費，および被験者への謝金が発生する．また，調音動作アニメーションの生成および実験用にPCを購入する．初年度の研究成果を発表するために国内および国外の旅費が必要であり，海外発表のための論文に対する校閲代も発生する．

Research Products
(16 results)

All 2012 Other

All Journal Article (3 results) (of which Peer Reviewed: 2 results) Presentation (12 results) Remarks (1 results)

[Journal Article] Phoneme Recognition based on AF-HMMs with an Optimal Parameter Set2012
- Author(s)
  Narpendyah W. Ariwardhani, Yurie Iribe, Kouichi Katsurada, Tsuneo Nitta
- Journal Title
  
  Journal of Signal Processing
  
  Volume: Vol. 16, No. 6 Pages: 571-579
- Peer Reviewed
[Journal Article] Generation of CG Animation Based on Articulatory Features for Pronunciation Training2012
- Author(s)
  Yurie Iribe，Takuro Mori，Kouichi Katsurada，Tsuneo Nitta
- Journal Title
  
  The Journal of Information and Systems in Education
  
  Volume: Vol.11 No.1 Pages: 1-13
- Peer Reviewed
[Journal Article] 音声認識技術の発音学習への応用2012
- Author(s)
  新田恒雄，入部百合絵
- Journal Title
  
  メディア教育研究
  
  Volume: Vol.9 No.1 Pages: 19-28
[Presentation] Animated Pronunciation Generated from Speech for Pronunciation Training
- Author(s)
  Yurie Iribe, Silasak Manosavan1, Kouichi Katsurada and Tsuneo Nitta
- Organizer
  KES-IIMSS(Intelligent Interactive Multimedia Systems and Services)
- Place of Presentation
  長良川コンベンションセンター
[Presentation] Pronunciation Training by Extracting Articulatory Movement from SpeecKTH(Sweden)h
- Author(s)
  Tsuneo Nitta, Silasak Manosavan, Yurie Iribe, Kouichi Katsurada, Ryoko Hayashi and Chunyue Zhu
- Organizer
  IS ADEPT (International Symposium on Automatic Detection of Errors in Pronunciation Training)
- Place of Presentation
  Royal Institute of Technology(Sweden)
[Presentation] 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示
- Author(s)
  入部百合絵，森拓郎，桂田浩一，新田恒雄
- Organizer
  教育システム情報学会　第34回全国大会
- Place of Presentation
  千葉工業大学
[Presentation] Real-time Visualization of English Pronunciation on an IPA Chart Based on Articulatory Feature Extraction
- Author(s)
  Yurie Iribe, Takuro Mori, Kouichi Katsurada, Tsuneo Nitta
- Organizer
  InterSpeech 2012
- Place of Presentation
  ポートランド（アメリカ）
[Presentation] 音素共通部分空間を結合重みとした調音運動MLN に基づく音素認識
- Author(s)
  佐々木俊，入部百合絵，桂田浩一，新田恒雄
- Organizer
  平成24年度電気関係学会東海連合大会
- Place of Presentation
  豊橋技術科学大学
[Presentation] 調音特徴に基づく音素認識エンジンの提案
- Author(s)
  遠藤基，桂田浩一，入部百合絵，新田恒雄
- Organizer
  平成24年度電気関係学会東海連合大会
- Place of Presentation
  豊橋技術科学大学
[Presentation] 発音訓練のための音声から生成した調音動作アニメーションの開発
- Author(s)
  シラサックマノサワン，入部百合絵，桂田浩一，新田恒雄
- Organizer
  平成24年度電気関係学会東海連合大会
- Place of Presentation
  豊橋技術科学大学
[Presentation] Articulatory Movements from Speech for Pronunciation Training
- Author(s)
  Yurie Iribe, Silasak Manosavan, Kouichi Katsurada, Ryoko Hayashi and Chunyue Zhu, Tsuneo Nitta
- Organizer
  ICCE 2012
- Place of Presentation
  シンガポール
[Presentation] 双対空間における調音特徴抽出の検討
- Author(s)
  佐々木俊，入部百合絵，桂田浩一，新田恒雄
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学
[Presentation] 調音運動音響モデルと長短音節言語モデルを用いた音素認識エンジン
- Author(s)
  遠藤基，入部百合絵，桂田浩一，新田恒雄
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学
[Presentation] 調音のアンカーポイントに着目した英語調音動作アニメーションの改良
- Author(s)
  シラサックマノサワン，入部百合絵，桂田浩一，林良子，朱春躍，新田恒雄
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学
[Presentation] Introducing Articulatory Ancho-point to ANN Training for Corrective Learning of Pronunciation
- Author(s)
  Yurie Iribe, Silasak Manosavanh, Kouichi Katsurada, Ryoko Hayashi and Chunyue Zhu, Tsuneo Nitta
- Organizer
  ICASSP 2013(IEEE International Conference on Acoustics, Speech, and Signal Processing)
- Place of Presentation
  バンクーバー（カナダ）
[Remarks] http://www.ist.aichi-pu.ac.jp/~iribe/

2012 Fiscal Year Research-status Report

音声－調音特徴変換に基づく発音動作可視化の研究

Principal Investigator

入部 百合絵 豊橋技術科学大学, 情報メディア基盤センター, 助教 (40397500)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Phoneme Recognition based on AF-HMMs with an Optimal Parameter Set2012

Author(s)

Journal Title

[Journal Article] Generation of CG Animation Based on Articulatory Features for Pronunciation Training2012

Author(s)

Journal Title

[Journal Article] 音声認識技術の発音学習への応用2012

Author(s)

Journal Title

[Presentation] Animated Pronunciation Generated from Speech for Pronunciation Training

Author(s)

Organizer

Place of Presentation

[Presentation] Pronunciation Training by Extracting Articulatory Movement from SpeecKTH(Sweden)h

Author(s)

Organizer

Place of Presentation

[Presentation] 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示

Author(s)

Organizer

Place of Presentation

[Presentation] Real-time Visualization of English Pronunciation on an IPA Chart Based on Articulatory Feature Extraction

Author(s)

Organizer

Place of Presentation

[Presentation] 音素共通部分空間を結合重みとした調音運動MLN に基づく音素認識

Author(s)

Organizer

Place of Presentation

[Presentation] 調音特徴に基づく音素認識エンジンの提案

Author(s)

Organizer

Place of Presentation

[Presentation] 発音訓練のための音声から生成した調音動作アニメーションの開発

Author(s)

Organizer

Place of Presentation

[Presentation] Articulatory Movements from Speech for Pronunciation Training

Author(s)

Organizer

Place of Presentation

[Presentation] 双対空間における調音特徴抽出の検討

Author(s)

Organizer

Place of Presentation

[Presentation] 調音運動音響モデルと長短音節言語モデルを用いた音素認識エンジン

Author(s)

Organizer

Place of Presentation

[Presentation] 調音のアンカーポイントに着目した英語調音動作アニメーションの改良

Author(s)

Organizer

Place of Presentation

[Presentation] Introducing Articulatory Ancho-point to ANN Training for Corrective Learning of Pronunciation

Author(s)

Organizer

Place of Presentation

[Remarks] http://www.ist.aichi-pu.ac.jp/~iribe/

入部百合絵豊橋技術科学大学, 情報メディア基盤センター, 助教 (40397500)