2017 Fiscal Year Research-status Report
発話ロボットの音声学習における脳機能モデルの再現と発声障害のシミュレータの構築
Project/Area Number |
15K01459
|
Research Institution | Waseda University |
Principal Investigator |
澤田 秀之 早稲田大学, 理工学術院, 教授 (00308206)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 知能ロボット / 機械学習 / 音声生成 / 聴覚フィードバック / 脳内ネットワーク / 音声認識 / 発声障害 |
Outline of Annual Research Achievements |
本研究において、人間と同等の発声器官をエアポンプ、人工声帯、声道共鳴管、音響アナライザなどを用いて全て機械的に構成し、聴覚フィードバック学習によって自律的に音声を獲得、生成することができる発話ロボットの構築をおこなった。本年度は特に、発話ロボットが聴覚フィードバックによる模倣学習によって音声を獲得する課程について、人間の脳機能を再現した学習モデルを構築した。小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークに着目し、これを計算機モデルとしてFPGAに実装した。小脳は、脳内において知覚と運動機能の統合を行う機能を司り、音声の生成においては聴覚から得られる音声知覚情報を元に、発話器官の動作生成をおこなうための制御信号を作り出している。そこでまず、発話タイミングの認知と生成に着目し、小脳ネットワークの計算機モデルを構築した。本モデルは、人間の発話から、その発話速度発話長および各音素の発声タイミング、抑揚を認識し、ニューロネットワークの発火パターンからロボットの発話制御信号を自動生成するものである。人間との音声対話実験において、人の発話速度、抑揚を認識し、それに応じて適応的に同様の発話速度と発話長、抑揚を持つ音声を作り出すことに成功した。本学習モデルを、英語とベトナム語に適用し、これらの言語に特有な抑揚と発話タイミングが良好に学習できることを示した。 今後は、脳内ネットワークの大規模化を進め、話者の個人性の表出や、声真似など、より高精度に人の発話を再現できる計算機モデルを構築し、人間の発話機構の科学的解明に繋げていく。更に、発話障がい患者の音声特徴をロボットに再現させることにより、その原因を、構音動作と脳障害の両面から特定するためのロボットシミュレータの開発に繋げる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究最終年度となる29年度は、人間の音声生成器官と等価な発話機構を持つロボットの構築において、特に小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークの計算機モデルを提案し、FPGAに実装してリアルタイム学習機構を実現した。本ネットワークの実装により、人間の発話から、その発話速度発話長と各音素の発声タイミング、抑揚を認識し、ニューロネットワークの発火パターンからロボットの発話制御信号を自動生成することが可能となった。また、人間と同様の発話を可能とする機械モデルの構築については、より高精度で俊敏な動作を行うための位置・速度制御機構を実装することによって、計算機制御により適切な発話動作の再現が可能であることを示した。特に、発話障がい患者の不明瞭音声ならびに、外国語の発話の再現まで可能とし、被験者による聴取実験により、充分に音声の生成が可能であることも示した。これらは従来の機械式音声生成の研究においては成し遂げられなかった成果と言える。 研究代表者は29年4月1日に、香川大学から早稲田大学へ異動した。前年度までに構築してきたロボットは前任地の香川大学に設置し、今年度においては香川大学の学生らと継続して研究を進めてきた。必要に応じて研究代表者が香川大学を訪問して研究を進め、おおむね順調に成果を挙げることができた。論文執筆に時間を要することとなり、投稿中の論文の採否が次年度となる予定である。
|
Strategy for Future Research Activity |
本研究では、人間の音声生成器官と等価な発話機構を持つロボットの構築と、小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークモデルの提案と実装をおこなった。人間の発話から、その発話速度発話長と各音素の発声タイミング、抑揚を認識し、ニューロネットワークの発火パターンからロボットの発話制御信号を自動生成することが可能となり、本モデルの有効性を示した。今後は、これまでに構築した発話ロボットの発話動作ならびに音声を、ロボティクスならびにマン・マシンインタフェースの視点から総合的に評価していく。機械部の発話動作については、人の口内動作との比較をおこない、聴覚フィードバックによる自律学習によって再現できる動作、再現が困難な動作について詳細に検討し、人間の音声の生成機構の解明に繋げていく。更に、日本語の全ての音素だけでなく、研究室の留学生の協力を得て、英語をはじめ、フランス語、中国語、ベトナム語などの外国語の様々な音素の発声を目指し、音声インタフェースとしての可能性を検討する。 また、音声のフィードバック学習のための脳内ネットワークモデルについては、セル数とネットワークスケールの大規模化を進め、より高精度に人の発話を再現できる計算機モデルを構築していく。発話速度、発話長、発話タイミングだけでなく、様々な音声特徴や発話表現について学習・再現を可能とするモデルへと拡張し、提案モデルの有効性を検証していく。 本研究のまとめとして、ロボティクス、ヒューマンインタフェース研究の視点から、人間と同等の発話器官を用いて音声対話をおこなうことが可能な、自律発話ロボットの実現を目指す。本ロボットは、音声生成の物理シミュレータと見做すことができ、人間の発話原理を目に見ながら誰でもが解りやすく理解するための教育教材としても、意味のあるシステムとなる。
|
Causes of Carryover |
28年度末で香川大学を退職し、29年4月より早稲田大学へ異動した。前年度までに構築してきたロボットは前任地の香川大学に設置し、29年度においては香川大学の学生らと継続して研究を進めてきた。必要に応じて研究代表者が香川大学を訪問して研究を進めてきたが、香川県内で協力をお願いしていた発話障がい者の発話訓練実験の幾つかを残すこととなっていた。平成30年度に、引き続いて発話障がい者音声の不明瞭要因を発話ロボットによって再現し、その原因を構音動作と脳障害の両面から特定するためのロボットシミュレータの構築をおこなう必要がある。本年度の研究についてはおおむね予定通りの成果が得られているため、次年度の研究について、本年度からの繰り越し経費を使って研究を遂行していく。
|