2010 Fiscal Year Annual Research Report

聞き手の反応に着目した音声会話の解析と生成

Research Project

Project/Area Number	22240013
Research Institution	Kyoto University
Principal Investigator	河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)
Co-Investigator(Kenkyū-buntansha)	森信介京都大学, 学術情報メディアセンター, 准教授 (90456773) 秋田祐哉京都大学, 学術情報メディアセンター, 助教 (90402742) 角康之京都大学, 情報学研究科, 准教授 (30362578)
Keywords	音声認識 / 自然言語解析 / 会話分析 / インタラクション / 話し言葉 / アーカイブ / エージェント
Research Abstract	会議や会話などの音声コミュニケーションの解析に関して,音声認識,及び聞き手の反応に基づくアノテーションに焦点をおいた以下の研究を行った. 話し言葉の音声認識のための音響モデルの学習には大規模なコーパスが必要であるが,話し言葉の忠実な書き起こしを用意するのは多大なコストを要する.これに対して,会議録や字幕などの忠実な書き起こしでないが,容易に入手できるテキストを活用する準教師付き学習の枠組みを研究した.提案する手法では,会議録のテキストデータに統計的話し言葉変換を適用して,会議の詳細な単位(ターン)ごとに制約の強い言語モデルを作成し,この言語モデルを用いて音声認識を行うことで,音響モデル学習のためのラベルを作成する.国会審議を対象とした音声認識評価実験により,従来手法よりも高い精度のラベルを作成できること,及びこのラベルを用いて人手のラベルを用いた場合と同等の精度のモデルを学習できることが示された. ポッドキャストやポスター会話といった音声会話コンテンツを対象として,会話音声中の聞き手の反応に基づいて,視聴者にとって有益な箇所を抽出する手法を研究した.笑い声やあいづちを生起させる箇所(=ホットスポット)は第三者である視聴者にとっても有益な情報を含んでいると考えられる.本研究では,笑い声とあいづちの検出を行い,検出されたそれぞれのイベントに基づいて,「おもしろスポット」と「なるほどスポット」の2種類のホットスポットを定義し,それらの抽出を行った.被験者実験によって各ホットスポットの妥当性を評価し,これらの大半が実際に被験者が興味・関心をもった箇所であることを確認した.

Research Products
(6 results)

All 2011 2010 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results) Book (1 results) Remarks (1 results)

[Journal Article] 統計的言語モデル変換を用いた音響モデルの準教師つき学習2011
- Author(s)
  三村正人, 秋田祐哉, 河原達也
- Journal Title
  
  電子情報通信学会論文誌
  
  Volume: Vol.J94-D,No2 Pages: 460-468
- Peer Reviewed
[Journal Article] Detection of hot spots in poster conversations based on reactive tokens of audience.2010
- Author(s)
  T.Kawahara, K.Sumi, Z.Q.Chang, K.Takanashi.
- Journal Title
  
  Proc.INTERSPEECH
  
  Pages: 3042-3045
- Peer Reviewed
[Journal Article] Classroom note-taking system for hearing impaired students using automatic speech recognition adapted to lectures.2010
- Author(s)
  T.Kawahara, N.Katsumaru, Y.Akita, S.Mori.
- Journal Title
  
  Proc.INTERSPEECH
  
  Pages: 626-629
- Peer Reviewed
[Presentation] Automatic transcription of parliamentary meetings and classroom lectures.2010
- Author(s)
  T.Kawahara.
- Organizer
  Int'l Sympo. Chinese Spoken Language Processing (ISCSLP)
- Place of Presentation
  台湾・台南
- Year and Date
  2010-12-03
[Book] Julius : Open-source software toolkit for large vocabulary continuous speech recognition.2010
- Author(s)
  T.Kawahara, A.Lee, K.Shikano.
- Total Pages
  305-308
- Publisher
  Consideration Books
[Remarks]
- URL
  http://www.ar.media.kyoto-u.ac.jp/

2010 Fiscal Year Annual Research Report

聞き手の反応に着目した音声会話の解析と生成

Principal Investigator

河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)

Research Products

[Journal Article] 統計的言語モデル変換を用いた音響モデルの準教師つき学習2011

Author(s)

Journal Title

[Journal Article] Detection of hot spots in poster conversations based on reactive tokens of audience.2010

Author(s)

Journal Title

[Journal Article] Classroom note-taking system for hearing impaired students using automatic speech recognition adapted to lectures.2010

Author(s)

Journal Title

[Presentation] Automatic transcription of parliamentary meetings and classroom lectures.2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Book] Julius : Open-source software toolkit for large vocabulary continuous speech recognition.2010

Author(s)

Total Pages

Publisher

[Remarks]

URL

河原達也京都大学, 学術情報メディアセンター, 教授 (00234104)