研究領域 | 人とロボットの共生による協創社会の創成 |
研究課題/領域番号 |
24118710
|
研究機関 | 独立行政法人情報通信研究機構 |
研究代表者 |
杉浦 孔明 独立行政法人情報通信研究機構, ユニバーサルコミュニケーション研究所 情報利活用基盤研究室, 研究員 (60470473)
|
研究期間 (年度) |
2012-04-01 – 2014-03-31
|
キーワード | ロボット対話 / ヒューマンロボットインタラクション / 生活支援ロボット / 音声合成 / 音声対話 / 機械学習 / ロボカップ@ホーム |
研究実績の概要 |
日常環境で人と共生するロボットの実現には、ユーザや状況に適応したコミュニケーションが重要となる。本研究では、物体の名称や動作などの実世界知識を学習可能なロボット対話フレームワークの確立を目指し、今年度は基盤技術の開発と実環境における実証を行った。 (1)音声対話を通じた実世界知識の学習:動作学習および音声合成・対話実験に用いる生活支援ロボットプラットフォームのハードウェアおよびソフトウェアを開発した。日常環境において、日用品を探す、ユーザと対話する、などのタスクを行うことを想定し、等価騒音レベル75dBの騒音環境下で音声対話可能な設計とした。このロボットは、ユーザとの音声対話を通じて実世界知識(名称の音素列や視覚的特徴)を学習することができる。 (2)非モノローグ音声合成:ロボットと人間の対話において、合成音声が平板的であるため対話の自然性が損なわれるという問題があった。そこで、非モノローグコーパスによるHMM音声合成を提案した。MOS(Mean Opinion Score)を用いて性能評価を行った結果、読み上げタスクにおいては既存手法であるモノローグ音声合成と同等であり、対話タスク・生活支援ロボットタスクにおいてはモノローグ音声合成を上回る結果を得た。 (3)ロボカップ@ホームタスクによる実証実験:開発した動作学習・音声対話モジュールの実証実験として、生活支援ロボットのベンチマークテストであるロボカップ@ホーム世界大会に出場し、準優勝(20チーム中)を果たした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
今年度に開発した基盤技術である非モノローグ音声合成では、音声合成における標準的な評価尺度であるMOS(Mean Opinion Score)により性能評価を行っている。被験者実験に際し、専門家によるバイアスされた評価を避けるため、年代・性別をバランスした一般ユーザ(音声合成・ロボティクスの研究者・学生は1名も含まれていない)を24名集め、実際の生活支援ロボットと対面させた。被験者実験の結果、ベースライン手法であるモノローグ音声合成のMOS値を大きく上回り、理論上の上限に近い性能を得た。開発した手法は、ロボット向け合成音声としてこれまでにないレベルの品質を達成できたと考えられる。 また、開発したロボット向け音声対話モジュールの実証実験においても、ロボカップ@ホーム世界大会において準優勝という結果を得ている。一般に、実験室レベルのみでロボットの総合機能を客観評価することは簡単ではない。一方、ロボカップ@ホームタスクは国際的な技術委員によりタスク内容とスコアが標準化されていると同時にある程度の規模の参加チーム(約20チーム)があり、実験室レベルの評価と比較して客観性に関して優位である。
|
今後の研究の推進方策 |
平成25年度は、A)ユーザの継続的学習をうむ発話理解および対話戦略の開発と、B)擬人化された形態が認識精度に与える影響の評価を行う。 A)では、家庭用ロボットに向けた指示発話を収集し、ロボットが理解できる言い方をユーザが段階的に学ぶ枠組みを取り入れ、最終的に多様な言い回しに対応できる発話理解手法を開発する。タスクとしては、ロボカップ@ホームにおいて標準化されたタスクを用いる。発話理解ではロボットに対する指示コーパスの構築が重要であるので、最初に取り組む。コーパス構築では、ロボットを媒介としてWizard-of-Oz形式(被験者に自律ロボットであることを伝えるが、実際にはロボットを実験者が操作する)と、ウェブベースの大規模収集を組み合わせる。コーパス中に頻出する動詞・言い回しをクラスタリングし、家庭用ロボット向け発話理解タグを設計する。タグの複雑さを定量化して、ロボットが理解できる言い方をユーザが段階的に学べる機構を開発する。 次に、ロボットが擬人化されやすい形態を持つことによる機能を、精度向上と学習過程への影響の面から定量評価する。本研究では、擬人化されやすい形態を数種類製作し、顔認識精度や音声認識精度を評価する。タスクとしては、ロボカップ@ホームの”Who is Who”(未知ユーザの顔と名前をその場で記憶するタスク)などを用いる。ユーザの発話時間・発話回数を比較評価する。
|