• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

MOSAIC: 自然で双方向的な対話処理モデル

Research Project

Project/Area Number 24500256
Research Category

Grant-in-Aid for Scientific Research (C)

Research InstitutionNara Institute of Science and Technology

Principal Investigator

CAMPBELL Nick  奈良先端科学技術大学院大学, 情報科学研究科, 教授 (50395109)

Co-Investigator(Kenkyū-buntansha) 定延 利之  神戸大学, 国際文化学部, 教授 (50235305)
Project Period (FY) 2012-04-01 – 2015-03-31
Keywordsヒューマンインターフェース技術 / 非言語コミュニケーション / 感性情報処理 / 音声合成 / マルチモーダルインターフェース / バイオメトリックセンシング / 自律神経系
Research Abstract

平成12年から18年、独立行政法人科学技術振興機構(JST)の助成による研究「表現豊かな発話音声のコンピュータ処理システム」において世界一音声大規模コーパスの収録を行った。このコーパスから対話インタラクション情報の分析を可能にした。本分析結果は語彙的情報のみではなく、ノンバーバルコミュニケーションの重要性、詳細な声の使い方等の利用をモデル化可能にし、発話者の対話意図・参加程度等のセンシング技術の開発を可能にした。
平成16年から平成18年の総務省 戦略的情報通信研究開発推進事業(SCOPE)の助成により「ヒューマンコミュニケーションの「場」が読めるロホットの研究開発(041307003)」の研究において、マルチモーダルつまり音声+ビデオの収録し、音声対話コーパスを作成し、声の調子と共に微妙な動作情報を含めて分析を行った。
今回その研究の延長として本研究課題において、発話者・参加者の心理的情報を具体的に計るため、バイオメトリックセンサーを利用した。ans(autonomic nervous system)情報とは、ガルバニック皮膚反応による物理的データである。アイルランドのダブリン大学と共同で、”d-ans”データの収録を、Italian Institute of Technologyの研究者シャノン・ヘニング氏と行った。これまで参加者の参加態度(心理情報等)を手動でアノテーションしデータを構築していたが本研究では、バイオメトリックセンサーにより同様な結果が得られるかどうかの確認をするためデータ収集・分析を行った。米国マサチューセッツ工科大が開発したQセンサーの技術を導入し、対話インタラクションをマルチモーダル技術に収録しながら、発話者のバイオメトリックセンシングを同時に行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

発話者・参加者の心理的情報を具体的に計るため、バイオメトリックセンサーを利用した。ans(autonomic nervous system)情報とは、ガルバニック皮膚反応による物理的データである。アイルランドのダブリン大学と共同で、”d-ans”データの収録を8月、Italian Institute of Technologyの研究者シャノン・ヘニング氏と行った。これまで手動によるアノテーション情報により参加者の参加態度(心理情報等)を手動でアノテーションしデータを構築していた。本研究では、バイオメトリックセンサーにより同様な結果が得られるかどうかの確認をするためデータ収集・分析を行った。米国マサチューセツ工科大が開発したQセンサーの技術を導入し、対話インタラクションをマルチモーダル技術に収録しながら、発話者のバイオメトリックセンシングを同時に行った。従来の研究を利用し、新たなバイオメトリック情報チャンネルの利用価値を確認した。
神戸大学、ダブリン大学、スウェーデンのKTH、およびイタリアのIIT研究所との共同研究を制定している。我々は新しいバイオメトリック音声画像コーパスを作成し、現在世界で4カ所の研究現場で使用されている。共同編集、マルチ執筆本を製作中でこれにより新しい研究分野を確立した。非言語コンポーネント対話のワークショップを開催し、世界中から30人以上の研究者が参加した。また、「多言語音声翻訳システム」研究のため、情報通信研究機構(NiCT)、研究共同体「ユニバーサル音声翻訳先端研究コンソーシアム」U-Starと新たな共同研究を確立した。

Strategy for Future Research Activity

音声工学において音声認識や音声合成はある程度研究されている。しかし対話音声を処理する為にはもう一モジュール必要である。つまり対話参加者の対話意図や参加程度を計る(予測する)技術である。双方向的な会話においてのバイオメトリック信号情報と話者の参加態度と認知状態・対話意図の関係を分析していく。”d-ans”コーパス収録で得られた収録データに引き続きアノテーション付与を行う。音声情報とともにバイオメトリックデータを調整し、音声動画とバイオメトリックデータを対話の知覚状態に連携させる。具体的には、音声信号や映像信号より生体信号が示す特徴を予測出来るかどうかを確認するためのテストを行う。現在の実験ではバイオメトリックセンサーを参加者の両手に装着する必要がある。そのバイオメトリックセンサーから心理情報を予測する。本研究の目的はバイオメトリックセンサー無しでも音声や画像情報により心理情報つまり対話の参加程度を予測することである。会話の参加者における対話意図や参加程度に関連した生体情報(皮膚の電圧により計)、カメラとマイクのデータによる音声動画信号において確認できる相互関係は物理的信号により聞き手の状態を予測可能にするであろう。この相互関係をテストする作業に加え、音声動画信号による対話参加者の参加態度を自動的に予測可能にするソフトウェアを開発・テストしていく予定である。研究結果は会議や国際的なワークショップで発表し、最終的にはジャーナル論文等で発行する。アイルランドのダブリン大学において共同で国際会議を開催し、本研究に関するさらなる研究結果を議論していく。本技術が確立されれば音声対話システムの「対話音声理解」の新たな第一歩になる。

Expenditure Plans for the Next FY Research Funding

平成24年度、招聘予定であった海外の研究者とこちらの予定が合わず招聘することが出来なかった。そのため平成24年度の研究費に未使用額が生じた。次年度の研究費使用計画は次のとおりである。(1)フランス、リヨンで開催される国際会議”Interspeech 2013“(http://www.interspeech2013.org/)に参加、情報収集。(2)マルチモーダル音声処理と対話処理に関連する複数のサテライトワークショップへの参加。 <Thirteenth International Conference on Intelligent Virtual Agents (IVA 2013) ,IWSDS: International Workshop on Spoken Dialogue Systems Technology 2012,
”Interspeech 2013“Satellite Workshops>(3)研究協力グループ間での研究交流の企画。本研究で研究分担者である神戸大学国際文化学部 定延利之教授とアイルランド ダブリン トリニティーカレッジにて今後の研究計画について検討。(4)アイルランド ダブリンで2014年に開催される”speech prosody 2014”国際会議の運営準備のサポート。(5)ダブリンのトリニティーカレッジからNAISTへの学生招へい。(6)ラベラーによる”d-ans”コーパスの詳細な書き起こしとアノテーション。手動による対話の参加程度等の知覚情報を学習データとしていく。(7)大規模音声データを保存するための機器購入。

  • Research Products

    (18 results)

All 2013 2012 Other

All Journal Article (3 results) Presentation (12 results) (of which Invited: 1 results) Book (3 results)

  • [Journal Article] D64: a corpus of richly recorded conversational interaction2013

    • Author(s)
      Catharine Oertel, Fred Cummins, Jens Edlund, Petra Wagner, Nick Campbell
    • Journal Title

      Multimodal User Interfaces

      Volume: Volume 7 Pages: p19-p28

  • [Journal Article] Designing and Implementing a Platform for Collecting Multi-Modal Data of Human-Robot Interaction.2012

    • Author(s)
      Vaughan, B., Han, G. J., Gilmartin, E & Campbell, N
    • Journal Title

      Acta Polytechnica Hungarica

      Volume: 9 Pages: p7-p17

  • [Journal Article] Analysis of acoustic-prosodic features of spontaneous expressive speech2012

    • Author(s)
      Carlos Toshinori Ishi, Nick Campbell,
    • Journal Title

      Revista de Estudos da Linguagem

      Volume: 12 Pages: p38-p49

  • [Presentation] Identification of cues for the automatic detection of hotspots in natural conversation

    • Author(s)
      Oertel, C., De Looze, C., Campbell, N and Wagner, P
    • Organizer
      SSPnet-COST 2012 PINK International Conference
    • Place of Presentation
      Budapest, Hungary
  • [Presentation] The Herme Database of Spontaneous Multimodal Human-‐Robot Dialogues

    • Author(s)
      Han, J., Gilmartin, E., De Looze, C., Vaughan, B., & Nick Campbell,
    • Organizer
      Conference on Language Resources and Evaluation (LREC'12),
    • Place of Presentation
      Istanbul, Turkey
  • [Presentation] An audiovisual political speech analysis incorporating eye-tracking and perception data

    • Author(s)
      Stefan Scherer, Georg Layher, John Kane, Heiko Neumann and Nick Campbell
    • Organizer
      Conference on Language Resources and Evaluation (LREC'12)
    • Place of Presentation
      Istanbul, Turkey
  • [Presentation] Laughter and Topic Changes: Temporal Distribution and Information Flow

    • Author(s)
      Bonin, Francesca and Nick Campbell and Carl Vogel
    • Organizer
      3rd IEEE Conference on Cognitive Infocommunications
    • Place of Presentation
      Kosice, Slovakia
  • [Presentation] Vers une mesure automatique de l’adaptation prosodique en interaction conversationnelle

    • Author(s)
      De Looze, C., Scherer, S., Vaughan, B. & Campbell, N.
    • Organizer
      29eme Journees d’Etude sur la Parole (JEP 2012)
    • Place of Presentation
      Grenoble, France
  • [Presentation] More than just words: Building a chatty robot

    • Author(s)
      Gilmartin, E., Campbell, N
    • Organizer
      International Workshop on Spoken Dialog Systems (IWSDS 2012)
    • Place of Presentation
      Paris,France
  • [Presentation] Temporal distribution of laughter in conversation

    • Author(s)
      Francesca Bonin, Nick Campbell, Carl Vogel
    • Organizer
      Third Interdisciplinary Workshop on Laughter and other Non‐Verbal Vocalisations in Speech
    • Place of Presentation
      Dublin, Ireland
  • [Presentation] Investigating the use of Non-verbal Cues in Human-Robot Interaction with a Nao robot

    • Author(s)
      JingGuang Han, Nick Campbell, Kristiina Jokinen, Graham Wilcock
    • Organizer
      IEEE 3rd International Conference on Cognitive Infocommunications (CogInfoCom)
    • Place of Presentation
      Kosice, Slovakia
  • [Presentation] Non-verbal cognitive skills and autistic conditions: An analysis and training tool

    • Author(s)
      Hiroki Tanaka, Sakriani Sakti, Graham Neubig, Tomoki Toda, Nick Campbell, Satoshi Nakamura
    • Organizer
      IEEE 3rd International Conference on Cognitive Infocommunications (CogInfoCom)
    • Place of Presentation
      Kosice, Slovakia
  • [Presentation] How Do We React to Context? Annotation of Individual and Group Engagement in a Video Corpus, Privacy, Security, Risk and Trust (PASSAT)

    • Author(s)
      Francesca Bonin, Ronald Bock, Nick Campbell
    • Organizer
      International Conference on and 2012 International Confernece on Social Computing (SocialCom)
    • Place of Presentation
      Amsterdam, Netherland
  • [Presentation] Priming, Timing, and the Phatic Component in Machine-Mediated Dialogue

    • Author(s)
      Emer Gilmartin, Celine De Looze, Nick Campbell
    • Organizer
      The Listening Talker (LISTA 2012)
    • Place of Presentation
      Edinburgh, Scotland
  • [Presentation] Social aspects and speechability in CogInfoCom systems

    • Author(s)
      N. Campbell
    • Organizer
      CogInfoCom 2012
    • Place of Presentation
      Kosice, Slovakia
    • Invited
  • [Book] Speech, Gaze, anmd Affect: concepts of reactive and natural human-machine interaction techniques employing ECAs with personality2013

    • Author(s)
      Matej Rojc & Nick Capbell (eds)
    • Total Pages
      P500
    • Publisher
      Science Publishers, Jersey
  • [Book] Rhythm, Melody, and Harmony in Speech2012

    • Author(s)
      D. Gibbon, D. Hirst, and N. Campbell
    • Total Pages
      P325
    • Publisher
      Polish Phonetic Association, Poznan
  • [Book] Conversational Involvement and Synchronous Nonverbal Behaviour in, Esposito,"Cognitive Behavioural Systems"2012

    • Author(s)
      A., Vinciarelli, A., Hoffmann, R., V. (Eds.) [Altmann, U., Oertel, C., & Campbell, N.]
    • Total Pages
      pp343 - 352
    • Publisher
      Springer

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi