2017 Fiscal Year Research-status Report
会話事例からの動作制御モデル自動獲得による自然な会話動作の再現
Project/Area Number |
17K17713
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
三武 裕玄 東京工業大学, 科学技術創成研究院, 助教 (30613939)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | 会話エージェント / 動作生成 / 物理エンジン / トルク変化最小モデル / 隠れマルコフモデル |
Outline of Annual Research Achievements |
本年度は、主に3つの研究を行った。 会話の身体動作生成手法として、新たにトルク変化最小モデルに基づく動作生成手法の実現を行った。従来用いていた躍度最小軌道は二点間の到達運動が直線となるため、移動距離の大きい動作は不自然になる問題があった。そこでより良いモデルであるトルク変化最小モデルによる動作生成手法を構築した。従来提案されていた順逆緩和モデルを基にして、物理エンジンを順モデル・逆モデルとして使用することで任意の構造を持つ身体の制御に利用可能な手法を実現した。本手法では移動距離の大きな動作でより人間に近い滑らかな曲線を描く手先動作を生成することに成功したものの、特定の条件では軌道生成に失敗し発散するなど課題が残った。 実会話事例の学習手法としては、会話時の笑顔の同調を再現するエージェントの実現を行った。話し手・聞き手の2者による会話の音声と表情(表情筋の活動度を模した16次元ベクトル)を記録し、連続値HMMを学習した。次に学習したHMMを用い、人間の話し手の音声と表情を入力とし、対になる聞き手の表情をHMMによって推定することで、エージェントの表情を生成する手法を構築した。実現したエージェントと実際にインタラクションを行ったところ、学習した会話事例に含まれるような笑顔の同調パターンがいくつか生成され、体験者もエージェントの笑顔の推移を人間らしいと感じたことが示唆された。 また、会話事例において、話し手は聞き手が大きな声や高い声で相槌を打った時に、話に興味を持ってもらえたと判断してより大きな声や高い声で話を継続する様子がしばしば観察された。このことから、ニュース読み上げエージェントのような一方的な話し手であっても相手の相槌に対して反応することで「自分に向けられた話しかけ」であると感じさせられると考え、これをモデル化したエージェントを実現する研究を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画では身体制御モデル・動作データ圧縮手法の確立と、HMMによる実会話学習手法の基礎検討を行う予定であった。 会話動作の身体制御モデルに関しては、計画時に想定していた躍度最小モデルに基づく手法に問題点が見えてきたことから、当初の計画を変更してトルク変化最小モデルによる動作生成手法の構築に注力した。結果、動作データ圧縮手法には未着手であるものの、より簡素な運動指令からでも自然な動作を生成できる手法が実現できたため、より会話動作の学習に適した手法が得られたと考えられる。 実会話学習手法に関しては、音韻と表情という多次元連続値データをHMMで学習し行動生成に用いる手法を実現できたため、おおむね計画通りと考える。
|
Strategy for Future Research Activity |
次年度では、以下の方策により研究を推進する予定である。 まず、会話動作制御の学習について、躍度最小モデルによる経由点抽出とトルク変化最小モデルによる動作生成の組み合わせを試みる。トルク変化最小モデルはより自然な動作を生成するものの計算に時間がかかり、人間の動作事例から運動指令を抽出する逆モデルに使うには困難が予想される。そこで運動指令抽出に高速な躍度最小モデルによるフィッティングを用いてトルク変化最小モデルと組み合わせることで十分目的が果たせる可能性を確かめる。 次に、会話データの学習手法についてはHMMに加え、より連続な動作等のデータに適したGPLVM及びGPDMと呼ばれる手法を試みる。これらの手法はデータを有用な低次元空間に写像しつつ繰返しパターンを抽出することに適しており、動作・音韻といった連続値で表される会話事例データの学習にはHMMよりも適している可能性がある。 また、会話エージェントに行わせるタスクとして、展示会等における受付の主なタスクである来場者の呼び込み・名札の読み取り・ブースへの誘導を行うエージェントを実装し検証する。実際の展示会受付の様子を観察するほか、人間の操作による受付エージェント(WoZ法)を構築することで効果的な学習データの取得を行う。実装したエージェントを実際に展示会で使用し、来場者の反応を定量的・定性的に観察することで評価を行う。
|
Causes of Carryover |
当初、会話エージェントとの対話空間としてVR空間を想定していたため、対話者人数分のHMD購入費を2017年度予算に計上していた。しかしその後の検討で、提示手法をより応用に適した等身大平面ディスプレイに切り替えることとした。大画面平面ディスプレイは研究室内にあったものを利用したため購入代金はかからなかった。 2018年度は会話事例取得手法の一つとして会話エージェントを人間が操作する環境を構築する予定であり、台数は当初より減るもののHMDが必要となる予定である。また、評価用の会話エージェントを実現するにあたって音声の到来方向を識別可能なマイクアレイが必要となる。次年度使用額分はこれらの購入に使用する。翌年度分予算は当初の通り機械学習用計算機・デモ用の小型PCの購入等に使用する予定である。
|
Research Products
(4 results)