2013 年度実績報告書

聞き手の反応に着目した音声会話の解析と生成

研究課題

研究課題/領域番号	22240013
研究機関	京都大学
研究代表者	河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
研究分担者	角康之公立はこだて未来大学, システム情報科学部, 教授 (30362578) 秋田祐哉京都大学, 学術情報メディアセンター, 助教 (90402742) 森信介京都大学, 学術情報メディアセンター, 准教授 (90456773)
研究期間 (年度)	2010-04-01 – 2014-03-31
キーワード	画像、文章、音声等認識 / コンテンツ・アーカイブ / エージェント / マルチモーダルインターフェース / 音声会話
研究概要	音声会話の聞き手の反応と認知状態との関係を分析し、会話ブラウザを作成するとともに、会話エージェントの高度化も行った。まず、ポスターを用いた会話における聴衆の興味・理解度の自動推定を行った。ポスター会話では、聴衆の視線や相槌などの振る舞いが顕著に見られる。これらの振る舞いは、興味・理解度と関係があると考えられる。また興味・理解度は、聴衆の質問や相槌などの発話行為からも推測できると考えられる。本研究ではまず、興味・理解度と発話行為の関係を分析した。次に、発話行為と聴衆の振る舞いとの関係を調べた。これに基いて、話題セグメント毎にマルチモーダルな振る舞いから、質問の生起とその種類の予測を行った。実験の結果、相槌と視線の特徴量が予測に有効であることと、それらを組み合わせることの相乗効果が確認された。この知見に基いて、会話の様子を視覚化するブラウザを作成した。次に、聞き手の興味に基いて会話を行うエージェントを構築した。これは、日々動的に更新されるWebニュース記事を対象として、音声による雑談的な情報案内を行うものである。ユーザがどの情報に興味があるかという焦点に着目し、ユーザとの対話を通じて漠然とした情報要求に応えることを目標とした。本研究では、ユーザの意図推定と焦点解析をドメインにできるだけ依存しない形で機械学習により実現し、さらに部分観測マルコフ決定過程(POMDP)を用いた統計的対話制御により、ユーザの状態と焦点に最適化された情報案内モジュールの選択を行う枠組みを実現した。
現在までの達成度 (区分)	理由 25年度が最終年度であるため、記入しない。
今後の研究の推進方策	25年度が最終年度であるため、記入しない。

研究成果
(10件)

すべて 2014 2013 その他

すべて雑誌論文 (3件) (うち査読あり 2件) 学会発表 (7件) (うち招待講演 4件)

[雑誌論文] Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language2014
- 著者名/発表者名
  M. Ablimit, T. Kawahara, and A. Hamdulla
- 雑誌名
  
  Speech Communication
  
  巻: Vol.60 ページ: 78-87
- DOI
  10.1016/j.specom.2013.09.011
- 査読あり
[雑誌論文] 述語項構造を介した文の選択に基づく音声対話用言語モデルの構築2014
- 著者名/発表者名
  吉野幸一郎, 森信介, 河原達也
- 雑誌名
  
  人工知能学会論文誌
  
  巻: Vol.29, No.1 ページ: 53-59
- 査読あり
[雑誌論文] 音声認識技術の現状と将来展望2013
- 著者名/発表者名
  河原達也
- 雑誌名
  
  電気学会誌
  
  巻: 133 ページ: 364-367
[学会発表] Smart posterboard: Multi-modal sensing and analysis of poster conversations
- 著者名/発表者名
  T.Kawahara
- 学会等名
  APSIPA ASC
- 発表場所
  台湾・高雄
- 招待講演
[学会発表] Predicate argument structure analysis using partially annotated corpora
- 著者名/発表者名
  K.Yoshino, S.Mori, and T.Kawahara
- 学会等名
  IJCNLP
- 発表場所
  名古屋国際会議場
[学会発表] Estimation of interest and comprehension level of audience through multi-modal behaviors in poster conversations
- 著者名/発表者名
  T.Kawahara, S.Hayashi, and K.Takanashi
- 学会等名
  INTERSPEECH
- 発表場所
  フランス・リヨン
[学会発表] Incorporating semantic information to selection of web texts for language model of spoken dialogue system
- 著者名/発表者名
  K.Yoshino, S.Mori, and T.Kawahara
- 学会等名
  IEEE-ICASSP
- 発表場所
  カナダ・バンクーバー
[学会発表] スマートポスターボード: ポスター会話のマルチモーダルなセンシングと解析
- 著者名/発表者名
  河原達也
- 学会等名
  人工知能学会 SIG-Challenge
- 発表場所
  京都大学
- 招待講演
[学会発表] 音声認識の方法論に関する考察―世代交代に向けて―
- 著者名/発表者名
  河原達也
- 学会等名
  情報処理学会 SIG-SLP
- 発表場所
  ホテルサンバレー富士見(静岡県伊豆の国市)
- 招待講演
[学会発表] 音声認識の方法論に関する考察―歴史的変遷と今後の展望―
- 著者名/発表者名
  河原達也
- 学会等名
  情報処理学会 SIG-MUS
- 発表場所
  お茶の水女子大学
- 招待講演

2013 年度 実績報告書

聞き手の反応に着目した音声会話の解析と生成

研究代表者

河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)

理由

研究成果

[雑誌論文] Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language2014

著者名/発表者名

雑誌名

DOI

[雑誌論文] 述語項構造を介した文の選択に基づく音声対話用言語モデルの構築2014

著者名/発表者名

雑誌名

[雑誌論文] 音声認識技術の現状と将来展望2013

著者名/発表者名

雑誌名

[学会発表] Smart posterboard: Multi-modal sensing and analysis of poster conversations

著者名/発表者名

学会等名

発表場所

[学会発表] Predicate argument structure analysis using partially annotated corpora

著者名/発表者名

学会等名

発表場所

[学会発表] Estimation of interest and comprehension level of audience through multi-modal behaviors in poster conversations

著者名/発表者名

学会等名

発表場所

[学会発表] Incorporating semantic information to selection of web texts for language model of spoken dialogue system

著者名/発表者名

学会等名

発表場所

[学会発表] スマートポスターボード: ポスター会話のマルチモーダルなセンシングと解析

著者名/発表者名

学会等名

発表場所

[学会発表] 音声認識の方法論に関する考察―世代交代に向けて―

著者名/発表者名

学会等名

発表場所

[学会発表] 音声認識の方法論に関する考察―歴史的変遷と今後の展望―

著者名/発表者名

学会等名

発表場所

2013 年度実績報告書

河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)