• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

発話ロボットの音声学習における脳機能モデルの再現と発声障害のシミュレータの構築

Research Project

Project/Area Number 15K01459
Research InstitutionKagawa University

Principal Investigator

澤田 秀之  香川大学, 工学部, 教授 (00308206)

Project Period (FY) 2015-04-01 – 2018-03-31
Keywords知能ロボット / 機械学習 / 音声生成 / 聴覚フィードバック / 脳内ネットワーク / 音声認識 / 発声障害
Outline of Annual Research Achievements

人間の発声は大きく分けて、声帯振動による音源の生成と、共鳴によるホルマントの付加という、2つの働きによって構成されている。研究2年目となる本年度は、発話ロボットに摩擦音や破裂音の生成のための新機構とその制御手法を実装することにより、発声障がい患者の不明瞭音声ならびに、外国語の発話再現をおこなった。新機構により、人工声帯と声道部の動作速度が上がり、また動作位置制御も大幅に向上した結果、不明瞭音声の原因となる発話動作の再現が可能となり、更に子音優位で高速な発話動作が要求される英語、ドイツ語、ベトナム語の発話も実現した。
更に、発話ロボットが聴覚フィードバックによる模倣学習によって音声を獲得する課程について、人間の脳機能を再現した学習モデルを構築した。小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークに着目し、これを計算機モデルとしてFPGAに実装した。小脳は、脳内において知覚と運動機能の統合を行う機能を司り、音声の生成においては聴覚から得られる音声知覚情報を元に、発話器官の動作生成をおこなうための制御信号を作り出している。本研究ではまず、発話タイミングの認知と生成に着目し、小脳ネットワークの計算機モデルを構築した。本モデルは、人間の発話から、その発話速度発話長と各音素の発声タイミングを認識し、ニューロネットワークの発火パターンからロボットの発話制御信号を自動生成するものである。人間との音声対話実験において、人の発話速度、抑揚を認識し、それに応じて適応的に同様の発話速度と発話長、抑揚を持つ音声を作り出すことに成功した。今後は、脳内ネットワークの大規模化を進め、より高精度に人の発話を再現できる計算機モデルを構築していく。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究2年目となる28年度は、人間の音声生成器官と等価な発話機構を持つロボットの構築において、摩擦音や破裂音の生成のための新機構とその制御手法を実装し、更に聴覚フィードバック学習による自律音声獲得を可能とする脳機能モデルを組み込むことにより、下記の通り、ほぼ順調に進めることができた。
人間と同様の発話を可能とする機械モデルの構築については、より高精度で俊敏な動作を行うための位置・速度制御機構を実装することによって、計算機制御により適切な発話動作の再現が可能であることを示した。特に、発声障がい患者の不明瞭音声ならびに、外国語の発話の再現まで可能とし、被験者による聴取実験により、充分に音声の生成が可能であることも示した。これらは従来の機械式音声生成の研究においては成し遂げられなかった成果と言える。
更に、自律音声獲得のための脳機能モデルの提案と、計算機モデルとしての実装を進めた。発話ロボットが人間の音声の模倣学習によって自己の音声を獲得する課程について、小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークモデルを提案し、これらの機能を再現した学習モデルの構築とFPGAへの実装をおこなった。人間の発話から、その発話速度発話長と各音素の発声タイミングを認識し、ネットワークの発火パターンからロボットの発話制御信号を自動生成できることを示した。次年度は、より高精度に人の発話を模倣して再現する機構を実現し、新しい音声インタフェースとしてのロボットの評価を行っていく。

Strategy for Future Research Activity

これまでの研究で、人間の音声生成器官と等価な発話機構を持つロボットの構築と、小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークモデルの実装をおこなった。研究最終年度である29年度はまず、これまでに構築した発話ロボットの発話動作ならびに音声を、ロボティクスならびにマン・マシンインタフェースの視点から総合的に評価していく。機械部の発話動作については、人の口内動作との比較をおこない、聴覚フィードバックによる自律学習によって再現できる動作、再現が困難な動作について詳細に検討し、人間の音声の生成機構の解明に繋げていく。更に、日本語の全ての音素だけでなく、研究室の留学生の協力を得て、英語をはじめ、フランス語、中国語、ベトナム語などの外国語の様々な音素の発声を目指し、音声インタフェースとしての可能性を検討する。
また、音声のフィードバック学習のための脳内ネットワークモデルについては、セル数とネットワークスケールの大規模化を進め、より高精度に人の発話を再現できる計算機モデルを構築していく。発話速度、発話長、発話タイミングだけでなく、様々な音声特徴や発話表現について学習・再現を可能とするモデルへと拡張し、提案モデルの有効性を検証していく。
本研究のまとめとして、ロボティクス、ヒューマンインタフェース研究の視点から、人間と同等の発話器官を用いて音声対話をおこなうことが可能な、自律発話ロボットの実現を目指す。本ロボットは、一連の発話動作を、音源生成部と共鳴特性付加部に分離して考えることにより、この二つの制御部を独立に操作することが可能である。これは、音声生成の物理シミュレータとも考えることができる。人間の発話原理を、目に見ながら誰でもが解りやすく理解するための教育教材としても、意味のあるシステムとなる。

Causes of Carryover

28年度末で香川大学を退職し、29年度より早稲田大学へ異動となることが決まり、本研究遂行のためのロボット構築費ならびに制御関連物品費用を、次年度に異動先にて購入することとなったため。本年度の研究については予定通りの成果が得られているため、次年度の研究について、本年度からの繰り越し経費を使って、異動先の早稲田大学に於いて新たに始める。

Expenditure Plan for Carryover Budget

次年度は、異動先の早稲田大学において、発話ロボットの機械機構ならびにその制御部の構築をおこない、全ての機構を完成させる。そのために、発話のための器官をメカニカル機構によって構築し、またこれを制御するためのアクチュエータの実装を行うための費用として支出する。更に、音声の聴覚フィードバック学習のための脳内ネットワークモデルを計算機内に実装し、音声獲得の高速オンライン学習および実時間発話制御システムの構築をおこなうためのFPGAならびに周辺機器を購入する。また、発話障がい者音声の不明瞭要因を発話ロボットによって再現し、その原因を構音動作と脳障害の両面から特定するためのロボットシミュレータの構築をおこなう。そのため、音声実験のための治具製作費、音響機器の購入ならびに、研究補助費を計上する。また、研究成果の発表のため、国際学会ならびに国内学会への参加費、論文投稿費を計上している。

  • Research Products

    (4 results)

All 2016

All Journal Article (3 results) (of which Int'l Joint Research: 3 results,  Peer Reviewed: 3 results,  Acknowledgement Compliant: 3 results) Presentation (1 results)

  • [Journal Article] A Talking Robot and Its Real-time Interactive Modification for Speech Clarification2016

    • Author(s)
      Vo Nhu Thanh and Hideyuki Sawada
    • Journal Title

      SICE Journal of Control, Measurement, and System Integration

      Volume: Vol.9, No.6 Pages: 251-256

    • DOI

      10.9746/jcmsi.9.251

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] Automatic Vowel Sequence Reproduction for a Talking Robot Based on PARCOR Coefficient Template Matching2016

    • Author(s)
      Vo Nhu Thanh and Hideyuki Sawada
    • Journal Title

      IEIE Transactions on Smart Processing and Computing

      Volume: Vol. 5, No. 3 Pages: 215-221

    • DOI

      10.5573/IEIESPC.2016.5.3.215

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] Comparison of Several Acoustic Features for the Vowel Sequence Reproduction of a Talking Robot2016

    • Author(s)
      Vo Nhu Thanh and Hideyuki Sawada
    • Journal Title

      IEEE International Conference on Mechatronics and Automation

      Volume: CD-ROM Pages: 1137-1142

    • DOI

      10.1109/ICMA.2016.7558722

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Presentation] Vietnamese Language Speech Performance by the Talking Robot2016

    • Author(s)
      Vo Nhu Thanh and Hideyuki Sawada
    • Organizer
      電気関係学会 四国支部連合大会 講演論文集
    • Place of Presentation
      徳島大学
    • Year and Date
      2016-09-17

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi