研究課題/領域番号 |
15K01459
|
研究機関 | 香川大学 |
研究代表者 |
澤田 秀之 香川大学, 工学部, 教授 (00308206)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 知能ロボット / 機械学習 / 音声生成 / 聴覚フィードバック / 脳内ネットワーク / 音声認識 / 発声障害 |
研究実績の概要 |
人間の発声は大きく分けて、声帯振動による音源の生成と、共鳴によるホルマントの付加という、2つの働きによって構成されている。初年度となる本年度は、人間の発声器官に対応する機能を、それぞれエアポンプ、人工声帯、調音用共鳴部、マイク、音響解析部によってメカニカルに再現した発話ロボットを構築した。特にこれまでに実現が困難であった摩擦音や破裂音の生成のために、歯および口唇の開発と実装をおこない、生成音声の明瞭度の向上を目指した。人間と同等レベルの発話動作の再現のためには、口内部において100cm/secの動作速度が必要となる。モータによる発話器官の駆動では充分な速度とトルクが得られないため、空気圧によるバルーンアクチュエータの検討をおこなった。明瞭な音声生成のためには、50mm程度の動作範囲において1mm精度の位置決めが必要であり、未だ検討中である。 更に、発話ロボットが聴覚フィードバックによる模倣学習によって音声を獲得する課程について、人間の脳機能を再現した学習モデルの提案をおこなった。小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークに着目し、これを計算機モデルとして実装を進めた。小脳は、脳内において知覚と運動機能の統合を行う機能を司り、音声の生成においては聴覚から得られる音声知覚情報を元に、発話器官の動作生成をおこなうための制御信号を作り出している。皮質視床は間脳の一部位を占め、聴覚からの入力情報を大脳新皮質へ中継する役割を担っている。この信号を元に、大脳は音声を解釈し、言葉や声の特徴の理解をおこなっている。また大脳基底核は、大脳皮質と視床、脳幹を結びつけている神経核の集まりであり、音声学習における運動調節や認知機能を担っている。これら3つの脳機能を再現した自己学習機能の提案をおこない、計算機モデルとして構築を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究初年度となる27年度は、人間の音声生成器官と等価な発話機構を持つロボットの構築と、聴覚フィードバック学習による自律音声獲得を可能とする脳機能モデルの検討の遂行であり、下記の通り、ほぼ順調に進めることができた。 発話ロボットの構築については、全てメカニカルな機構とそれを制御するモータによって、計算機を介して適切な発話動作を再現し、人間に近い音声を作り出すことに成功した。特にこれまでに困難であった摩擦音と破裂音について、人間の生体器官に近い材質と形状で作成した歯と口唇を実装することにより、これらの音声の生成を可能とした。被験者による聴取実験により、充分に音声の生成が可能であることも示した。ここで、モータによる制御においては、メカニカル機構部の動作速度が充分に上がらないため、子音音声が不明瞭であるという問題がおこった。より人間の発話に近い速度を実現する目的で、空気圧を使ったアクチュエータの実験をおこなった。その結果、動作速度については目標を達成できたが、発話器官の精密な位置決めが未だ困難であり、次年度も引き続き検討をおこなう。 更に、自律音声獲得のための脳機能モデルの提案と、計算機モデルとしての実装を進めた。発話ロボットが人間の音声の模倣学習によって自己の音声を獲得する課程について、小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークモデルを提案し、これら3つの脳機能を再現した学習モデルの構築を進めた。本年度は、FPGAを使って本モデルをロボットの音声学習制御部に実装し、動作確認まで終えた。音声を入力することにより、音響信号から神経伝達パルス列を生成し、脳内ネットワークモデル内で共有できることを確認した。次年度からは、音声獲得の高速オンライン学習および実時間発話制御システムを実現していく。
|
今後の研究の推進方策 |
これまでの研究により、人間の音声生成器官と等価な発話機構を持つロボットの構築と、小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークモデルの提案をおこなった。平成28年度はまず、前年度に構築した発話ロボットの音声をより明瞭にするために、子音生成のための制御手法の改良を進めていく。特に空気圧アクチュエータの位置決め精度の向上ならびに、発話ロボットの口内への実装について検討を進めていく。これにより、日本語の全ての音素だけでなく、研究室の留学生の協力を得て、英語をはじめ、フランス語、中国語、ベトナム語などの外国語の様々な音素の発声を目指す。 また、音声の聴覚フィードバック学習のための脳内ネットワークモデルを計算機内に実装し、音声獲得の高速オンライン学習および実時間発話制御システムの実現につなげていく。本研究においては、小脳、皮質視床、大脳基底核から成る、音声の聴覚フィードバック学習の脳内ネットワークモデルを提案するが、脳内学習においては、各受容野の神経活動電位に基づく神経伝達パルス密度のモデル化が必要となる。これをFPGAを使ってロボットの音声学習制御部に実装し、音声獲得の高速オンライン学習および実時間発話制御システムを実現する。更に本ロボットに様々な音声特徴、発話動作を学習、再現させ、学習モデルの有効性を検証していく。 上述2つの研究を進めながら、発話障がい者音声の不明瞭要因を発話ロボットによって再現させる。特に、脳機能モデルにおいて、神経伝達パルスの密度の変化、神経ネットワークの閉塞・解放を元に、発話障害の動作、生成音声を再現させることにより、その原因を、構音動作と脳障害の両面から特定するためのロボットシミュレータの開発を進める。
|
次年度使用額が生じた理由 |
発話ロボットの子音発声機構である歯ならびに口唇部とその制御機構の研究の項目が、当初予定よりも多く、本年度中に最終形態の確定と実装までに至らなかったため、その経費が未執行となっている。本年度までに、主に音声生成実験まで完了し、ほぼ予定通りの成果が得られているので、機械部の実装は次年度におこなう。
|
次年度使用額の使用計画 |
次年度は、発話ロボットの子音発声機構である歯および口唇部、その制御機構の実装をおこない、全ての機械機構を完成させる。そのために、発話のための器官をメカニカル機構によって構築し、またこれを制御するためのアクチュエータの実装を行うための費用として支出する。更に、音声の聴覚フィードバック学習のための脳内ネットワークモデルを計算機内に実装し、音声獲得の高速オンライン学習および実時間発話制御システムの構築をおこなう。また、発話障がい者音声の不明瞭要因を発話ロボットによって再現し、その原因を構音動作と脳障害の両面から特定するためのロボットシミュレータの開発を進める。そのため、音声実験のための治具製作費、音響機器の購入ならびに、研究補助費を計上する。また、研究成果の発表のため、国際学会ならびに国内学会への参加費、論文投稿費を計上している。
|