2018 Fiscal Year Annual Research Report

Research and development of multi-modal interactive English learning system based on deep learning

Research Project

Project/Area Number	17H00823
Research Institution	Tohoku University
Principal Investigator	伊藤彰則東北大学, 工学研究科, 教授 (70232428)
Co-Investigator(Kenkyū-buntansha)	能勢隆東北大学, 工学研究科, 准教授 (90550591) 千葉祐弥東北大学, 工学研究科, 助教 (30780936)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	英語学習システム / 音声認識 / 音声対話 / 音声合成 / 発音自動評価 / マルチモーダル / 深層学習
Outline of Annual Research Achievements	2018年度は主に3つの内容について取り組んだ。1つ目として、英会話練習をしている日本人学習者の音声と映像のマルチモーダルデータを用い、英語の流暢さの知覚に映像情報がどのように影響するかを調べた。英語母語話者3名の評定結果の分析から、表情やジェスチャーの自然さは、総合的な流暢さに対してアクセントやイントネーションの良さと同等の影響が有ることが明らかになった。また、映像データから自動抽出した情報を元に、表情・ジェスチャーの自然さの評定値を推定する方法を開発した。2つ目は、音声対話による英会話練習システムに向けて、特定の話題について雑談を行う音声対話システムの印象向上手法の研究を行った。この方法では、学習者とシステムが相互に自分の情報を相手に伝える（自己開示）ように対話戦略を設定する。この対話戦略により、対話システムに対するユーザーの印象を高めることができた。3つ目として、対話音声を対象とした英語音声の発音の自動評定手法を開発した。従来の音声の発音評価では、対象となる音声の発話内容が既知であることが前提となっていた。しかし、英会話練習においては、必ずしも事前に設定された内容を発話するとは限らない。提案手法は、英語ネイティブ音声から学習した音響モデルと、日本人英語音声から学習した音響モデルの2つを使って音声認識結果を2つ出力し、その違いの情報を使って発音の良さを評価する。提案法によって、英語母語話者の評定値と相関0.8を超える性能が得られた。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 上に述べたとおり、3つのテーマについて十分な進捗があった。いずれの結果も、国際会議での発表または国際学術雑誌への投稿を行っている。一方、多様な音声合成のテーマに関しては、まだ日本語を対象としたプロトタイプを作成しているところであり、今後英語音声合成に展開する。
Strategy for Future Research Activity	これからの最大のテーマは、対話型英会話学習システムを作成することである。また、単に音声だけでなく、マルチモーダル情報を取り入れて学習者の総合的な英語能力を評価しながら学習にフィードバックする方法を開発する。最終的には実際に英会話学習を行うことで効果を測定する。

Research Products
(23 results)

All 2019 2018

All Journal Article (12 results) (of which Peer Reviewed: 12 results, Open Access: 4 results) Presentation (11 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Evaluation of English Speech Recognition for Japanese Learners Using DNN-Based Acoustic Models2018
- Author(s)
  Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 93-100
- DOI
  10.1007/978-3-030-03748-2_11
- Peer Reviewed
[Journal Article] A Study on a Spoken Dialogue System with Cooperative Emotional Speech Synthesis Using Acoustic and Linguistic Information2018
- Author(s)
  Mai Yamanaka, Yuya Chiba, Takashi Nose, Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 101-108
- DOI
  10.1007/978-3-030-03748-2_12
- Peer Reviewed
[Journal Article] Comparison of Speech Recognition Performance Between Kaldi and Google Cloud Speech API2018
- Author(s)
  Takashi Kimura, Takashi Nose, Shinji Hirooka, Yuya Chiba, Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 109-115
- DOI
  10.1007/978-3-030-03748-2_13
- Peer Reviewed
[Journal Article] Segmental Pitch Control Using Speech Input Based on Differential Contexts and Features for Customizable Neural Speech Synthesis2018
- Author(s)
  Shinya Hanabusa, Takashi Nose, Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 124-131
- DOI
  10.1007/978-3-030-03748-2_15
- Peer Reviewed
[Journal Article] Two-Stage Sequence-to-Sequence Neural Voice Conversion with Low-to-High Definition Spectrogram Mapping2018
- Author(s)
  Sou Miyamoto, Takashi Nose, Kazuyuki Hiroshiba, Yuri Odagiri, Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 132-139
- DOI
  10.1007/978-3-030-03748-2_16
- Peer Reviewed
[Journal Article] DNN-Based Talking Movie Generation with Face Direction Consideration2018
- Author(s)
  Toru Ishikawa, Takashi Nose, Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 157-164
- DOI
  10.1007/978-3-030-03748-2_19
- Peer Reviewed
[Journal Article] Muting Machine Speech Using Audio Watermarking2018
- Author(s)
  Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 74-81
- DOI
  10.1007/978-3-030-03748-2_9
- Peer Reviewed
[Journal Article] Leveraging a Small Corpus by Different Frame Shifts for Training of a Speech Recognizer2018
- Author(s)
  Akinori Ito
- Journal Title
  
  Recent Advances in Intelligent Information Hiding and Multimedia Signal Processing, IH-MSP 2018. Smart Innovation, Systems and Technologies
  
  Volume: 110 Pages: 82-89
- DOI
  10.1007/978-3-030-03748-2_10
- Peer Reviewed
[Journal Article] Effect of Mutual Self-Disclosure in Spoken Dialog System on User Impression2018
- Author(s)
  Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito
- Journal Title
  
  Proceedings of APSIPA Annual Summit and Conference
  
  Volume: - Pages: 806-810
- DOI
  10.23919/APSIPA.2018.8659630
- Peer Reviewed / Open Access
[Journal Article] Analyzing Effect of Physical Expression on English Proficiency for Multimodal Computer-Assisted Language Learning2018
- Author(s)
  Haoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito
- Journal Title
  
  Proceedings of Interspeech
  
  Volume: - Pages: 1746-1750
- DOI
  10.21437/Interspeech.2018-1425
- Peer Reviewed / Open Access
[Journal Article] An Analysis of the Effect of Emotional Speech Synthesis on Non-Task-Oriented Dialogue System2018
- Author(s)
  Yuya Chiba, Takashi Nose, Taketo Kase, Mai Yamanaka, Akinori Ito
- Journal Title
  
  Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue
  
  Volume: - Pages: 371-375
- Peer Reviewed / Open Access
[Journal Article] Improving User Impression in Spoken Dialog System with Gradual Speech Form Control2018
- Author(s)
  Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito
- Journal Title
  
  Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue
  
  Volume: - Pages: 235-240
- Peer Reviewed / Open Access
[Presentation] Analyzing Effect of Multimodal Information Processing on English Proficiency2019
- Author(s)
  Haoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito
- Organizer
  International Workshop on Emerging ICT
- Int'l Joint Research
[Presentation] Automatic English Proficiency Assessment for Japanese Learners without Reference Transcriptions2019
- Author(s)
  Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] 話者・環境適応と波形正規化を用いた音声感情認識の精度改善2019
- Author(s)
  山中麻衣, 千葉祐弥, 能勢隆, 伊藤彰則
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] 相互自己開示に基づく対話システムにおける傾聴的応答生成の効果の検証2019
- Author(s)
  多田駿介, 千葉祐弥, 能勢隆, 伊藤彰則
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] WaveNet ボコーダにおける few-shot 話者適応の検討2019
- Author(s)
  欧陽江卉，能勢隆，伊藤彰則
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] 日本人英会話における自然性自動評価のためのマルチモーダル情報の分析2019
- Author(s)
  呉浩然, 千葉祐弥, 能勢隆, 伊藤彰則
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] 感情音声データベース JTES の主観ラベル付与に向けた予備的検討2019
- Author(s)
  山中麻衣, 能勢隆, 千葉祐弥, 伊藤彰則
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] 音声とGUIによりピッチ制御が可能なDNN音声合成システムの検討2019
- Author(s)
  花房伸哉, 能勢隆, 伊藤彰則
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] 日本語音声を対象としたKaldiとGoogle Cloud Speech APIの認識性能比較2018
- Author(s)
  木村崇, 能勢隆, 廣岡伸治, 千葉祐弥, 伊藤彰則
- Organizer
  日本音響学会2018年秋季研究発表会
[Presentation] 音響情報と言語情報を用いた協調的発話感情付与に基づく音声対話システムの検討2018
- Author(s)
  山中麻衣,千葉祐弥,能勢隆,伊藤
- Organizer
  日本音響学会2018年秋季研究発表会
[Presentation] 相互自己開示によりユーザの印象を向上させる音声対話システムの構築と評価2018
- Author(s)
  多田駿介, 千葉祐弥, 能勢隆, 伊藤彰則
- Organizer
  第123回SLP研究会

2018 Fiscal Year Annual Research Report

Research and development of multi-modal interactive English learning system based on deep learning

Principal Investigator

伊藤 彰則 東北大学, 工学研究科, 教授 (70232428)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Evaluation of English Speech Recognition for Japanese Learners Using DNN-Based Acoustic Models2018

Author(s)

Journal Title

DOI

[Journal Article] A Study on a Spoken Dialogue System with Cooperative Emotional Speech Synthesis Using Acoustic and Linguistic Information2018

Author(s)

Journal Title

DOI

[Journal Article] Comparison of Speech Recognition Performance Between Kaldi and Google Cloud Speech API2018

Author(s)

Journal Title

DOI

[Journal Article] Segmental Pitch Control Using Speech Input Based on Differential Contexts and Features for Customizable Neural Speech Synthesis2018

Author(s)

Journal Title

DOI

[Journal Article] Two-Stage Sequence-to-Sequence Neural Voice Conversion with Low-to-High Definition Spectrogram Mapping2018

Author(s)

Journal Title

DOI

[Journal Article] DNN-Based Talking Movie Generation with Face Direction Consideration2018

Author(s)

Journal Title

DOI

[Journal Article] Muting Machine Speech Using Audio Watermarking2018

Author(s)

Journal Title

DOI

[Journal Article] Leveraging a Small Corpus by Different Frame Shifts for Training of a Speech Recognizer2018

Author(s)

Journal Title

DOI

[Journal Article] Effect of Mutual Self-Disclosure in Spoken Dialog System on User Impression2018

Author(s)

Journal Title

DOI

[Journal Article] Analyzing Effect of Physical Expression on English Proficiency for Multimodal Computer-Assisted Language Learning2018

Author(s)

Journal Title

DOI

[Journal Article] An Analysis of the Effect of Emotional Speech Synthesis on Non-Task-Oriented Dialogue System2018

Author(s)

Journal Title

[Journal Article] Improving User Impression in Spoken Dialog System with Gradual Speech Form Control2018

Author(s)

Journal Title

[Presentation] Analyzing Effect of Multimodal Information Processing on English Proficiency2019

Author(s)

Organizer

[Presentation] Automatic English Proficiency Assessment for Japanese Learners without Reference Transcriptions2019

Author(s)

Organizer

[Presentation] 話者・環境適応と波形正規化を用いた音声感情認識の精度改善2019

Author(s)

Organizer

[Presentation] 相互自己開示に基づく対話システムにおける傾聴的応答生成の効果の検証2019

Author(s)

Organizer

[Presentation] WaveNet ボコーダにおける few-shot 話者適応の検討2019

Author(s)

Organizer

[Presentation] 日本人英会話における自然性自動評価のためのマルチモーダル情報の分析2019

Author(s)

Organizer

[Presentation] 感情音声データベース JTES の主観ラベル付与に向けた予備的検討2019

Author(s)

Organizer

[Presentation] 音声とGUIによりピッチ制御が可能なDNN音声合成システムの検討2019

Author(s)

Organizer

[Presentation] 日本語音声を対象としたKaldiとGoogle Cloud Speech APIの認識性能比較2018

Author(s)

Organizer

伊藤彰則東北大学, 工学研究科, 教授 (70232428)