2012 年度実績報告書

聞き手の反応に着目した音声会話の解析と生成

研究課題

研究課題/領域番号	22240013
研究機関	京都大学
研究代表者	河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
研究分担者	角康之公立はこだて未来大学, システム情報科学部, 教授 (30362578) 秋田祐哉京都大学, 学術情報メディアセンター, 助教 (90402742) 森信介京都大学, 学術情報メディアセンター, 准教授 (90456773)
研究期間 (年度)	2010-04-01 – 2014-03-31
キーワード	画像、文章、音声等認識 / コンテンツ・アーカイブ / エージェント / マルチモーダルインターフェース / 音声会話
研究概要	話し言葉の音声認識に関する研究、音声会話の聞き手の反応に着目した分析を進めるとともに、音声対話エージェントの高度化も行った。音声対話システムのための音声認識における言語モデル構築のために、Web上で収集される文から適切なものを選択する手法を研究した。従来手法では文表層のパープレキシティを用いた文選択が一般的であったが、提案手法では音声対話において利用される文書集合（＝ドメイン）との意味的な類似度を定義し、これを文選択に用いる。具体的には、ドメイン固有の述語項構造パターンに着目し、統計的な尺度を定義する。この意味的な類似度と従来のパープレキシティに基づく手法を組み合わせることも検討する。2種類の異なるドメインにおける音声認識実験によって、提案する文選択手法が有効であることが示された。また、ポスターセッションにおける会話（=「ポスター会話」）に焦点をおいて研究を進めている。ポスター会話は、講演と会議の中間的な形態と捉えることができる。すなわち、発表者が自身の研究内容について少人数の聴衆に説明する一方、聴衆の側も相槌や頷きなどでリアルタイムにフィードバックし、時折質問やコメントも行う。本研究では、視線・話者・発話区間などの検出に加えて、聴衆の理解・興味度の推定などを行っている。これらは会話アーカイブに対する新たなインデキシングの枠組みを提供することが期待される。さらに、将来自動でプレゼンテーションを行う知的な会話エージェントの基盤にもなる。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由音声認識、会話の分析・アノテーション、音声対話システム(会話エージェント)の各要素に関して、成果が出ており、論文発表も順調に行えている。特に今年度は、国際会議での基調講演、国内会議でも多数の招待講演を行う機会があった。
今後の研究の推進方策	各要素をさらに高度化していくとともに、それらの成果を統合したシステムの構築も進めていく予定である。

研究成果
(11件)

すべて 2013 2012 その他

すべて雑誌論文 (6件) (うち査読あり 3件) 学会発表 (5件) (うち招待講演 4件)

[雑誌論文] 講演に対する読点の複数アノテーションに基づく自動挿入2013
- 著者名/発表者名
  秋田祐哉, 河原達也
- 雑誌名
  
  情報処理学会論文誌
  
  巻: Vol.54, No.2 ページ: 463-470
- 査読あり
[雑誌論文] 音声対話システムの進化と淘汰 ―歴史と最近の技術動向―2013
- 著者名/発表者名
  河原達也
- 雑誌名
  
  人工知能学会誌
  
  巻: 28 ページ: 45--51
[雑誌論文] A monotonic statistical machine translation approach to speaking style transformation2012
- 著者名/発表者名
  G. Neubig, Y. Akita, S. Mori, and T. Kawahara
- 雑誌名
  
  Computer Speech and Language
  
  巻: Vol.26, No.5 ページ: 349-370
- DOI
  10.1016/j.csl.2012.02.003
- 査読あり
[雑誌論文] 会議音声認識におけるBICに基づく高速な話者正規化と話者適応2012
- 著者名/発表者名
  三村正人, 河原達也
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: Vol.J95-D, No.7 ページ: 1467-1475
- 査読あり
[雑誌論文] 話し言葉の音声認識の進展 ―議会の会議録作成から講演・講義の字幕付与へ―2012
- 著者名/発表者名
  河原達也
- 雑誌名
  
  メディア教育研究
  
  巻: 9 ページ: 1--8
- DOI
  http://www.code.ouj.ac.jp/media/pdf/vol9no1_shotai_1.pdf
[雑誌論文] 音声認識技術を用いた講演・講義への字幕付与2012
- 著者名/発表者名
  河原達也
- 雑誌名
  
  映像情報メディア学会誌
  
  巻: 66 ページ: 641--644
[学会発表] Transcription system using automatic speech recognition for the Japanese Parliament (Diet)
- 著者名/発表者名
  Tatsuya Kawahara
- 学会等名
  AAAI/IAAI
- 発表場所
  カナダ・トロント
[学会発表] Multi-modal sensing and analysis of poster conversations toward smart posterboard
- 著者名/発表者名
  Tatsuya Kawahara
- 学会等名
  SIGdial Meeting Discourse & Dialogue
- 発表場所
  韓国・ソウル大学
- 招待講演
[学会発表] スマートポスターボード: ポスター発表における場のマルチモーダルなセンシングと認識
- 著者名/発表者名
  河原達也
- 学会等名
  電子情報通信学会パターン認識・メディア処理研究会
- 発表場所
  大阪府立大学
- 招待講演
[学会発表] 音声対話システムの進化と淘汰
- 著者名/発表者名
  河原達也
- 学会等名
  人工知能学会言語・音声理解と対話処理研究会
- 発表場所
  ニューウェルシティ湯河原（静岡県熱海市）
- 招待講演
[学会発表] スマートポスターボード: ポスター会話のマルチモーダルなセンシングと認識
- 著者名/発表者名
  河原達也
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  滝の湯（山形県天童市）
- 招待講演

2012 年度 実績報告書

聞き手の反応に着目した音声会話の解析と生成

研究代表者

河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 講演に対する読点の複数アノテーションに基づく自動挿入2013

著者名/発表者名

雑誌名

[雑誌論文] 音声対話システムの進化と淘汰 ―歴史と最近の技術動向―2013

著者名/発表者名

雑誌名

[雑誌論文] A monotonic statistical machine translation approach to speaking style transformation2012

著者名/発表者名

雑誌名

DOI

[雑誌論文] 会議音声認識におけるBICに基づく高速な話者正規化と話者適応2012

著者名/発表者名

雑誌名

[雑誌論文] 話し言葉の音声認識の進展 ―議会の会議録作成から講演・講義の字幕付与へ―2012

著者名/発表者名

雑誌名

DOI

[雑誌論文] 音声認識技術を用いた講演・講義への字幕付与2012

著者名/発表者名

雑誌名

[学会発表] Transcription system using automatic speech recognition for the Japanese Parliament (Diet)

著者名/発表者名

学会等名

発表場所

[学会発表] Multi-modal sensing and analysis of poster conversations toward smart posterboard

著者名/発表者名

学会等名

発表場所

[学会発表] スマートポスターボード: ポスター発表における場のマルチモーダルなセンシングと認識

著者名/発表者名

学会等名

発表場所

[学会発表] 音声対話システムの進化と淘汰

著者名/発表者名

学会等名

発表場所

[学会発表] スマートポスターボード: ポスター会話のマルチモーダルなセンシングと認識

著者名/発表者名

学会等名

発表場所

2012 年度実績報告書

河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)