2013 年度実施状況報告書

視聴覚話者情報がもつ音韻・感性情報の分析とクロスモーダル推定・合成手法の模索

研究課題

研究課題/領域番号	24650100
研究機関	東北大学
研究代表者	鈴木陽一東北大学, 電気通信研究所, 教授 (20143034)
研究分担者	川瀬哲明東北大学, 医工学研究科, 教授 (50169728) 坂本修一東北大学, 電気通信研究所, 准教授 (60332524)
キーワード	視聴覚音声知覚 / マルチモーダルインタフェース / 感性情報処理
研究概要	本研究の目的は，高品位ではない環境下でも高次感性情報の通信が可能な視聴覚音声コミュニケーションシステム実現にある。システム実現に向け，視聴覚音声情報について，音声伝達と高次感性情報の両面から，視覚と聴覚情報それぞれの特徴量が与える影響を要素還元的に定量評価し，得られた知見に基づいて，視覚情報と聴覚情報の操作により元情報の持つ感性情報をより忠実に，更には，より強調して伝達することが可能な視聴覚音声コンテンツ創成技術を創出する。平成25年度は，平成24年度に行った予備的検討にしたがって，話者映像に含まれる口形情報の量を変化させて，どの程度までであれば音声情報が正しく伝わるのかについて，多数の実験参加者を対象にした聴取実験の結果に基づいて分析した。その際に，話者になじみのある実験参加者となじみのない実験参加者の差異についても検討をした。実験の結果，口唇部分の情報さえ送られれば音声情報は正しく視聴者に伝わることが明らかとなった。また，この結果は，話者に対するなじみの程度とは関係なく，どちらの実験参加者群も同様の結果が得られた。これらの結果から総合すると，話者の口唇情報のいずれかの部分を特徴量として抽出して話者音声と合わせて提示することで，少なくとも音声情報という点では充分に話者の意図した情報を伝えることが可能となる。口唇のいずれの部分が寄与するのか，例えば口の開口面積なのか，唇中央部の開閉のみなのか，については，今後の研究課題であるが，今回の研究と同様のアプローチで，寄与の高い部位の特定が可能となると考えている。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由前年度に行った予備実験結果から明らかになった話者映像の大まかな寄与部位について，今年度に詳細な実験を行うことでほぼ特定することができた。また，本研究が終了し，今後さらに発展させていく際にも有効な実験手法を確立することができている。これらの知見は，視聴覚音声知覚に基づくコミュニケーションシステム全般の高度化において共通に重要な知見となりえるものである。以上のことを考えると，研究は当初の予定通り順調に進展しているものと思われる。
今後の研究の推進方策	現段階までで主要な研究データはそろっているので，これまで得られた結果の信頼性を高めるべく，口唇部分の提示範囲をより詳細に設定した刺激を用いた実験を行う．その分析では，個々の音韻の持つ視覚的な特徴を考慮して視覚的な特徴ごとに映像情報の寄与を明らかにする。それと合わせ，得られた結果を国際学会で発表し，研究成果や今後の研究の方向性について議論を行う。
次年度の研究費の使用計画	平成25年度に，話者映像を付加した刺激を用いた音声明瞭度試験を行い，音声の聞き取りにおける口周辺の映像の寄与度を音素別に特定し，その結果を国際会議で発表する予定であったが，調音位置に基づく視覚的な特徴量を用いた分析の結果，口周辺をより細かい部位に分けて寄与度を算出する必要が生じたため，計画を変更して口周辺にかぶせるマスクを様々に変えた映像を用いた新たな音声明瞭度試験を行ったため，未使用額が生じた。新たに行った音声明瞭度試験の結果を，情報伝達率などの指標を用いて，発声される音声の調音位置ごとに傾向を分析し直し，国際会議での発表を平成26年度前半に行うこととし，未使用額はその経費に充当する。

研究成果
(8件)

すべて 2014 2013

すべて雑誌論文 (4件) 学会発表 (4件) (うち招待講演 1件)

[雑誌論文] 口唇以外の話者映像情報が無意味3連音節を用いた音声明瞭度に与える影響2014
- 著者名/発表者名
  長谷川玄，坂本修一，阿部亨，大谷智子，鈴木陽一，川瀬哲明
- 雑誌名
  
  日本音響学会講演論文集
  
  巻: 2-P5-21 ページ: 641-642
[雑誌論文] The contribution of the detailed parts around talker's mouth for speech intelligibility2014
- 著者名/発表者名
  Shuichi Sakamoto, Gen Hasegawa, Toru Abe, Tomoko Ohtani, Yo-iti Suzuki and Tetsuaki Kawase
- 雑誌名
  
  Proc. the 21st International Congress on Sound and Vibration (ICSV21)
  
  巻: - ページ: -
[雑誌論文] 無意味3連音節を用いた音素別明瞭度における視覚情報の寄与の分析2013
- 著者名/発表者名
  長谷川玄，坂本修一，阿部亨，大谷智子，鈴木陽一，川瀬哲明
- 雑誌名
  
  日本音響学会聴覚研究会資料
  
  巻: H-2013-102 ページ: 595-600
[雑誌論文] 無意味3連音節を用いた音素別明瞭度における話者映像の寄与の分析2013
- 著者名/発表者名
  長谷川玄，坂本修一，阿部亨，大谷智子，鈴木陽一，川瀬哲明
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: HIP2013-60 ページ: 1-6
[学会発表] The contribution of the detailed parts around talker's mouth for speech intelligibility2014
- 著者名/発表者名
  Shuichi Sakamoto
- 学会等名
  the 21st International Congress on Sound and Vibration (ICSV21)
- 発表場所
  Beijing, China
- 年月日
  20140713-20140717
- 招待講演
[学会発表] 口唇以外の話者映像情報が無意味3連音節を用いた音声明瞭度に与える影響2014
- 著者名/発表者名
  長谷川玄
- 学会等名
  日本音響学会2014年春季研究発表会
- 発表場所
  日本大学
- 年月日
  20140310-20140312
[学会発表] 無意味3連音節を用いた音素別明瞭度における話者映像の寄与の分析2013
- 著者名/発表者名
  長谷川玄
- 学会等名
  電子情報通信学会ヒューマン情報処理（HIP）研究会
- 発表場所
  東北大学電気通信研究所
- 年月日
  20131119-20131120
[学会発表] 無意味3連音節を用いた音素別明瞭度における視覚情報の寄与の分析2013
- 著者名/発表者名
  長谷川玄
- 学会等名
  日本音響学会聴覚研究会
- 発表場所
  神戸セミナーハウス
- 年月日
  20131010-20131011

2013 年度 実施状況報告書

視聴覚話者情報がもつ音韻・感性情報の分析とクロスモーダル推定・合成手法の模索

研究代表者

鈴木 陽一 東北大学, 電気通信研究所, 教授 (20143034)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 口唇以外の話者映像情報が無意味3連音節を用いた音声明瞭度に与える影響2014

著者名/発表者名

雑誌名

[雑誌論文] The contribution of the detailed parts around talker's mouth for speech intelligibility2014

著者名/発表者名

雑誌名

[雑誌論文] 無意味3連音節を用いた音素別明瞭度における視覚情報の寄与の分析2013

著者名/発表者名

雑誌名

[雑誌論文] 無意味3連音節を用いた音素別明瞭度における話者映像の寄与の分析2013

著者名/発表者名

雑誌名

[学会発表] The contribution of the detailed parts around talker's mouth for speech intelligibility2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 口唇以外の話者映像情報が無意味3連音節を用いた音声明瞭度に与える影響2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 無意味3連音節を用いた音素別明瞭度における話者映像の寄与の分析2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 無意味3連音節を用いた音素別明瞭度における視覚情報の寄与の分析2013

著者名/発表者名

学会等名

発表場所

年月日

2013 年度実施状況報告書

鈴木陽一東北大学, 電気通信研究所, 教授 (20143034)