2010 年度実績報告書

聞き手の反応に着目した音声会話の解析と生成

研究課題

研究課題/領域番号	22240013
研究機関	京都大学
研究代表者	河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
研究分担者	森信介京都大学, 学術情報メディアセンター, 准教授 (90456773) 秋田祐哉京都大学, 学術情報メディアセンター, 助教 (90402742) 角康之京都大学, 情報学研究科, 准教授 (30362578)
キーワード	音声認識 / 自然言語解析 / 会話分析 / インタラクション / 話し言葉 / アーカイブ / エージェント
研究概要	会議や会話などの音声コミュニケーションの解析に関して,音声認識,及び聞き手の反応に基づくアノテーションに焦点をおいた以下の研究を行った. 話し言葉の音声認識のための音響モデルの学習には大規模なコーパスが必要であるが,話し言葉の忠実な書き起こしを用意するのは多大なコストを要する.これに対して,会議録や字幕などの忠実な書き起こしでないが,容易に入手できるテキストを活用する準教師付き学習の枠組みを研究した.提案する手法では,会議録のテキストデータに統計的話し言葉変換を適用して,会議の詳細な単位(ターン)ごとに制約の強い言語モデルを作成し,この言語モデルを用いて音声認識を行うことで,音響モデル学習のためのラベルを作成する.国会審議を対象とした音声認識評価実験により,従来手法よりも高い精度のラベルを作成できること,及びこのラベルを用いて人手のラベルを用いた場合と同等の精度のモデルを学習できることが示された. ポッドキャストやポスター会話といった音声会話コンテンツを対象として,会話音声中の聞き手の反応に基づいて,視聴者にとって有益な箇所を抽出する手法を研究した.笑い声やあいづちを生起させる箇所(=ホットスポット)は第三者である視聴者にとっても有益な情報を含んでいると考えられる.本研究では,笑い声とあいづちの検出を行い,検出されたそれぞれのイベントに基づいて,「おもしろスポット」と「なるほどスポット」の2種類のホットスポットを定義し,それらの抽出を行った.被験者実験によって各ホットスポットの妥当性を評価し,これらの大半が実際に被験者が興味・関心をもった箇所であることを確認した.

研究成果
(6件)

すべて 2011 2010 その他

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件) 図書 (1件) 備考 (1件)

[雑誌論文] 統計的言語モデル変換を用いた音響モデルの準教師つき学習2011
- 著者名/発表者名
  三村正人, 秋田祐哉, 河原達也
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: Vol.J94-D,No2 ページ: 460-468
- 査読あり
[雑誌論文] Detection of hot spots in poster conversations based on reactive tokens of audience.2010
- 著者名/発表者名
  T.Kawahara, K.Sumi, Z.Q.Chang, K.Takanashi.
- 雑誌名
  
  Proc.INTERSPEECH
  
  ページ: 3042-3045
- 査読あり
[雑誌論文] Classroom note-taking system for hearing impaired students using automatic speech recognition adapted to lectures.2010
- 著者名/発表者名
  T.Kawahara, N.Katsumaru, Y.Akita, S.Mori.
- 雑誌名
  
  Proc.INTERSPEECH
  
  ページ: 626-629
- 査読あり
[学会発表] Automatic transcription of parliamentary meetings and classroom lectures.2010
- 著者名/発表者名
  T.Kawahara.
- 学会等名
  Int'l Sympo. Chinese Spoken Language Processing (ISCSLP)
- 発表場所
  台湾・台南
- 年月日
  2010-12-03
[図書] Julius : Open-source software toolkit for large vocabulary continuous speech recognition.2010
- 著者名/発表者名
  T.Kawahara, A.Lee, K.Shikano.
- 総ページ数
  305-308
- 出版者
  Consideration Books
[備考]
- URL
  http://www.ar.media.kyoto-u.ac.jp/

2010 年度 実績報告書

聞き手の反応に着目した音声会話の解析と生成

研究代表者

河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)

研究成果

[雑誌論文] 統計的言語モデル変換を用いた音響モデルの準教師つき学習2011

著者名/発表者名

雑誌名

[雑誌論文] Detection of hot spots in poster conversations based on reactive tokens of audience.2010

著者名/発表者名

雑誌名

[雑誌論文] Classroom note-taking system for hearing impaired students using automatic speech recognition adapted to lectures.2010

著者名/発表者名

雑誌名

[学会発表] Automatic transcription of parliamentary meetings and classroom lectures.2010

著者名/発表者名

学会等名

発表場所

年月日

[図書] Julius : Open-source software toolkit for large vocabulary continuous speech recognition.2010

著者名/発表者名

総ページ数

出版者

[備考]

URL

2010 年度実績報告書

河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)