研究概要 |
1.視聴覚データベースの作成: ロボット,話者,雑音源の配置を変化させた複数の環境で発話データを収録した.約100秒間に50単語を発話するデータと約300秒間に50文の命令文を発話するデータの2種類を収録し,それぞれに正解の発話内容と手作業で作成された発話区間検出のリファレンス作成を行った. 2.異種情報量レベルでの視聴覚統合方式の検討: 画像・音声情報の持つ情報量に応じた視聴覚統合の検討を行った.まず,画像・音声情報の情報量レベルが高い,理想的な環境での視聴覚統合発話区間検出性能を向上させるため,発話動作と音声発話のずれを考慮した状態遷移モデルを用いた手法を提案し,次に,上記のデータベースの一部を利用した発話区間検出の予備実験を行い,その性能と状況の関連を調査し,その調査結果を基に情報量レベルの定義を行った.画像・もしくは音声情報のうち片方の情報量レベルが低い異種情報量レベルでの統合方式として,周囲の状況から音声のみ・画像のみ・視聴覚統合の中から適したモダリティを選ぶ手法を提案した. 3.アクティブ視聴覚統合の上半身ロボットへの実装と評価: プロトタイプシステムをヒューマノイドロボットに実装し,予備実験を行った.まずは,提案した視聴覚発話区間検出とモダリティ選択の有効性を評価するためのベンチマークとして,ロボットが静止した状態での発話区間検出実験を行った.実験には,情報量レベルをコントロールした視聴覚データを合成して使用し,提案した視聴覚統合発話区間検出が有効性であることを示した.また,モダリティ選択の有効性を検証するために,話者の顔のフレームアウトや音響雑音の大きさが動的に変化するシナリオを用いて評価実験を行い,その有効性を示した.最後に,アクティブな動作と上記の発話区間検出を組み合わせ,ロボットによるアクティブ視聴覚統合を発話区間検出に適用したプロトタイプシステムを実装した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初は,発話区間検出と音声認識の両方を扱うアクティブ視聴覚統合の枠組みを構築する予定であったが,ハードウェアとソフトウェアを組み合わせるところで遅れが生じたため,発話区間検出のみを扱い,アクティブ視聴覚統合の枠組みを構築した.一方で,システムの実装は予定より進み,移動と振り向きを同時に扱えるように実装した.以上の二点を考慮すると,全体としては当初の計画よりやや遅れている.
|
今後の研究の推進方策 |
今後は,発話区間検出と音声認識の両方を同時に扱えるように,アクティブ視聴覚統合を拡張する.また,現状では学習・評価に用いるデータ数が十分ではないので,複数の話者による発話データを収集し,音声・画像情報の質の変化に対して提案した枠組みが有効であることを示すとともに,より日常環境に近い動的に変化する環境での評価を行う.
|