2012 Fiscal Year Research-status Report
Project/Area Number |
24500256
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
CAMPBELL Nick 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (50395109)
|
Co-Investigator(Kenkyū-buntansha) |
定延 利之 神戸大学, 国際文化学部, 教授 (50235305)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | ヒューマンインターフェース技術 / 非言語コミュニケーション / 感性情報処理 / 音声合成 / マルチモーダルインターフェース / バイオメトリックセンシング / 自律神経系 |
Research Abstract |
平成12年から18年、独立行政法人科学技術振興機構(JST)の助成による研究「表現豊かな発話音声のコンピュータ処理システム」において世界一音声大規模コーパスの収録を行った。このコーパスから対話インタラクション情報の分析を可能にした。本分析結果は語彙的情報のみではなく、ノンバーバルコミュニケーションの重要性、詳細な声の使い方等の利用をモデル化可能にし、発話者の対話意図・参加程度等のセンシング技術の開発を可能にした。 平成16年から平成18年の総務省 戦略的情報通信研究開発推進事業(SCOPE)の助成により「ヒューマンコミュニケーションの「場」が読めるロホットの研究開発(041307003)」の研究において、マルチモーダルつまり音声+ビデオの収録し、音声対話コーパスを作成し、声の調子と共に微妙な動作情報を含めて分析を行った。 今回その研究の延長として本研究課題において、発話者・参加者の心理的情報を具体的に計るため、バイオメトリックセンサーを利用した。ans(autonomic nervous system)情報とは、ガルバニック皮膚反応による物理的データである。アイルランドのダブリン大学と共同で、”d-ans”データの収録を、Italian Institute of Technologyの研究者シャノン・ヘニング氏と行った。これまで参加者の参加態度(心理情報等)を手動でアノテーションしデータを構築していたが本研究では、バイオメトリックセンサーにより同様な結果が得られるかどうかの確認をするためデータ収集・分析を行った。米国マサチューセッツ工科大が開発したQセンサーの技術を導入し、対話インタラクションをマルチモーダル技術に収録しながら、発話者のバイオメトリックセンシングを同時に行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
発話者・参加者の心理的情報を具体的に計るため、バイオメトリックセンサーを利用した。ans(autonomic nervous system)情報とは、ガルバニック皮膚反応による物理的データである。アイルランドのダブリン大学と共同で、”d-ans”データの収録を8月、Italian Institute of Technologyの研究者シャノン・ヘニング氏と行った。これまで手動によるアノテーション情報により参加者の参加態度(心理情報等)を手動でアノテーションしデータを構築していた。本研究では、バイオメトリックセンサーにより同様な結果が得られるかどうかの確認をするためデータ収集・分析を行った。米国マサチューセツ工科大が開発したQセンサーの技術を導入し、対話インタラクションをマルチモーダル技術に収録しながら、発話者のバイオメトリックセンシングを同時に行った。従来の研究を利用し、新たなバイオメトリック情報チャンネルの利用価値を確認した。 神戸大学、ダブリン大学、スウェーデンのKTH、およびイタリアのIIT研究所との共同研究を制定している。我々は新しいバイオメトリック音声画像コーパスを作成し、現在世界で4カ所の研究現場で使用されている。共同編集、マルチ執筆本を製作中でこれにより新しい研究分野を確立した。非言語コンポーネント対話のワークショップを開催し、世界中から30人以上の研究者が参加した。また、「多言語音声翻訳システム」研究のため、情報通信研究機構(NiCT)、研究共同体「ユニバーサル音声翻訳先端研究コンソーシアム」U-Starと新たな共同研究を確立した。
|
Strategy for Future Research Activity |
音声工学において音声認識や音声合成はある程度研究されている。しかし対話音声を処理する為にはもう一モジュール必要である。つまり対話参加者の対話意図や参加程度を計る(予測する)技術である。双方向的な会話においてのバイオメトリック信号情報と話者の参加態度と認知状態・対話意図の関係を分析していく。”d-ans”コーパス収録で得られた収録データに引き続きアノテーション付与を行う。音声情報とともにバイオメトリックデータを調整し、音声動画とバイオメトリックデータを対話の知覚状態に連携させる。具体的には、音声信号や映像信号より生体信号が示す特徴を予測出来るかどうかを確認するためのテストを行う。現在の実験ではバイオメトリックセンサーを参加者の両手に装着する必要がある。そのバイオメトリックセンサーから心理情報を予測する。本研究の目的はバイオメトリックセンサー無しでも音声や画像情報により心理情報つまり対話の参加程度を予測することである。会話の参加者における対話意図や参加程度に関連した生体情報(皮膚の電圧により計)、カメラとマイクのデータによる音声動画信号において確認できる相互関係は物理的信号により聞き手の状態を予測可能にするであろう。この相互関係をテストする作業に加え、音声動画信号による対話参加者の参加態度を自動的に予測可能にするソフトウェアを開発・テストしていく予定である。研究結果は会議や国際的なワークショップで発表し、最終的にはジャーナル論文等で発行する。アイルランドのダブリン大学において共同で国際会議を開催し、本研究に関するさらなる研究結果を議論していく。本技術が確立されれば音声対話システムの「対話音声理解」の新たな第一歩になる。
|
Expenditure Plans for the Next FY Research Funding |
平成24年度、招聘予定であった海外の研究者とこちらの予定が合わず招聘することが出来なかった。そのため平成24年度の研究費に未使用額が生じた。次年度の研究費使用計画は次のとおりである。(1)フランス、リヨンで開催される国際会議”Interspeech 2013“(http://www.interspeech2013.org/)に参加、情報収集。(2)マルチモーダル音声処理と対話処理に関連する複数のサテライトワークショップへの参加。 <Thirteenth International Conference on Intelligent Virtual Agents (IVA 2013) ,IWSDS: International Workshop on Spoken Dialogue Systems Technology 2012, ”Interspeech 2013“Satellite Workshops>(3)研究協力グループ間での研究交流の企画。本研究で研究分担者である神戸大学国際文化学部 定延利之教授とアイルランド ダブリン トリニティーカレッジにて今後の研究計画について検討。(4)アイルランド ダブリンで2014年に開催される”speech prosody 2014”国際会議の運営準備のサポート。(5)ダブリンのトリニティーカレッジからNAISTへの学生招へい。(6)ラベラーによる”d-ans”コーパスの詳細な書き起こしとアノテーション。手動による対話の参加程度等の知覚情報を学習データとしていく。(7)大規模音声データを保存するための機器購入。
|
Research Products
(18 results)
-
-
-
-
-
[Presentation] The Herme Database of Spontaneous Multimodal Human-‐Robot Dialogues
Author(s)
Han, J., Gilmartin, E., De Looze, C., Vaughan, B., & Nick Campbell,
Organizer
Conference on Language Resources and Evaluation (LREC'12),
Place of Presentation
Istanbul, Turkey
-
-
-
-
-
-
-
-
-
-
-
-
-
[Book] Conversational Involvement and Synchronous Nonverbal Behaviour in, Esposito,"Cognitive Behavioural Systems"2012
Author(s)
A., Vinciarelli, A., Hoffmann, R., V. (Eds.) [Altmann, U., Oertel, C., & Campbell, N.]
Total Pages
pp343 - 352
Publisher
Springer