2012 Fiscal Year Research-status Report
複数人ユーザ対応の会話エージェント対話管理機構の研究
Project/Area Number |
23700183
|
Research Institution | Ritsumeikan University |
Principal Investigator |
黄 宏軒 立命館大学, 情報理工学部, 助教 (00572950)
|
Keywords | 人工知能 / ユーザインターフェース / 音声対話システム |
Research Abstract |
エージェントの自律化にあたり,今年度は主に,エージェントの会話管理機構,言語理解部,ジェネレーション部,音声認識部を中心に開発を行った.会話管理機構は,時間,システムの現在・以前の状態,ユーザの人数,言語理解結果,発話者,受話者,エージェントの発話といった情報の管理を行う.言語理解結果と受話者を入力とし,状態遷移モデルによって会話の制御を行う.認識されたユーザ発話の意味表現に応じて状態が遷移し,遷移した状態に基づきエージェント発話が決定され,出力すべき発話の文字列がアニメーション生成部に送信される.状態遷移モデルは,黄が開発を行なっている汎用的会話エージェント開発枠組みGECA のシナリオ記述言語GSML を拡張した.新規の言語理解部,ジェネレーション部に合わせて,ユーザ入力・エージェント出力の対応ペアを,実行時に動的に値を関係付けられるようにした.これによって膨大な可能性がある言語理解部の入力とジェネレーション部の出力を簡潔に記述できるようになった. 今年度は,複数人対話を行う際に積極的にサービスを提供するエージェントの適切な割り込むタイミングの推定にも取り組んだ.会話の停滞,直近のエージェントの発話に対しての更なる支援が必要,ユーザへの回想支援が必要,質問内容を議論していると4つのタイミングを自動的に推定する手法を考案した.受話者推定の精度が100%でない以上,誤った推定結果が起きうる.実験で恣意的にエラーを起こし,ユーザの反応を集めた.笑い,びっくり,戸惑いの表情をよく観察したため,まず,こういった表情の認識に取り組んだ.今のところ,90%を超える精度で,この3種類の表情を無表情の状況から区別できた.しかし,表情だけでは,誤りの発生を断定できないため,今後,音声情報などを含めて,誤りの発生を判別できる手法を考案したい.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定では,H24年度に,以下の3つの目標の達成を目指すことにした:(1)会話状態の入力とエージェント自身の行動を制御する会話管理機構を設計,実装する.(2)平面に表示されるエージェントキャラクターが,視線や発話などのアテンションの対象を,違和感なく,ユーザに提示し,認知させる手法を開発する.(3)非接触型ユーザ行動検知技術の開発.リアルタイムで動作する実用システムの実現に向かって,モーションキャプチャーなどの接触型センサで得られたモデルを正解データとし,コンピュータービジョン,空間内の音源定位など,ユーザの身に何らかの計測装置を付ける必要のない非接触型の計測技術でそれに近似する手法を開発する. このうち,研究成果の節で挙げたように,今年度はユーザの会話状態,受話者推定結果を用いて,エージェントの会話管理機構の実装ができた.また,(3)については,マイクロソフト社のKinect深度センサに内蔵されたマイクロホンアレイとビデオ会議用の高指向性のマイクを用いて,これまでのシステムでユーザに装着してもらう必要のあったヘッドセットは必要でなくなった.(2)に関しては,情報提供エージェントという設定から,個々のユーザに提示を行う必要性がそれほど高くないと判断した.研究の方向性を,実用システムに向けてより重要性の高い,割り込みタイミングの推定と受話者推定誤りの検知にシフトした.
|
Strategy for Future Research Activity |
現在,受話者推定エラーの検出と会話修復手法の開発をまず取り組んでいきたいと考えている. 2012年7月に立命館大学で追加の22組の被験者WOZ実験を行い,これまでの顔の動き,声の韻律情報の他,Kinectセンサから得られる深度情報から推定した体勢の変化も記録した.実験段階で操作者に適切でない発話行動を意図的に起こさせ,ユーザの困惑,会話の齟齬,確認発話の場面を観察・分析している.現段階では,誤りの発生の判断につながるユーザ表情の認識はできたが,誤りがなくても,それらの表情は有りうる.そのため,音声情報や文脈情報を更に加えて,確率的にエラーの発生とエージェントの対応手法を考案したい.また,割り込みタイミングの推定に関しては,より検知精度を高めるために,表情の認識,音声情報(ピッチ,パワー,話速) の変化等の更なる非言語情報の利用が考えられる.また,非言語のみで分類可能な4種類だけでなく,定義を行った言語情報も含めて分類可能だと判断した8 種類について自動検知を可能にし,その後,割り込みタイミングを自動検知する会話エージェントを実装する予定である.最後に,この二つの機能も自律システムに追加し,実用可能なシステムを目指します.
|
Expenditure Plans for the Next FY Research Funding |
H23年度に購入予定としていたモーションキャプチャデバイスは,本課題の採択金額では購入できず,他の経費で購入したため,102万円分がH24年度に繰り越された.この金額の使途として,研究成果が上がったため,想定していなかった論文誌論文掲載料と国際会議発表の旅費などが計上された.H25年度はH24年度から繰り越された約56万円の経費とH25年度予算の50万円を合わせて106万円は引き続き研究成果発表に使用する予定である.具体的に研究成果発表のための旅費,国際会議IVA2013(イギリス,2人x30万円), 国内会議:人工知能全国大会(4人x10万円)に充てる予定である.残りは消耗品やソフトウェアの購入に充てる予定である.
|