人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築

研究課題

研究課題/領域番号	16016219
研究種目	特定領域研究
配分区分	補助金
審査区分	理工系
研究機関	東京大学
研究代表者	峯松信明東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)
研究分担者	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
研究期間 (年度)	2004 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	11,600千円 (直接経費: 11,600千円) 2005年度: 6,000千円 (直接経費: 6,000千円) 2004年度: 5,600千円 (直接経費: 5,600千円)
キーワード	構造不変の定理 / 音響的普遍構造 / 構造音韻論 / 聴覚生理学 / 音的差異 / 音声インターフェイス / 音声対話システム / ゲシュタルト / パラ言語情 / 構造サイズ / 韻律的特徴
研究概要	音声によって伝搬される情報は,言語情報,パラ言語情報,非言語情報に分類される。従来の音声情報処理パラダイムでは,まずパラ言語情報を音声の物理現象から分離し,言語情報+非言語情報となった音声に対して,非言語情報の和をとることで(即ち,数千,数万という話者の音声を集めることで)言語情報を抽出する,という方法論を構築してきた。聴覚生理学,脳科学の知見によれば,言語情報と非言語情報は分離して脳で処理されているとのモデルが提案されている。即ち「集めること」なく,両者を分離できる,ということである。本研究では,音声の物理現象から話者,音響機器特性などの静的な非言語情報を分離する枠組みを,脳科学の知見を考慮しつつ提案した。その応用として,一人の話者の音声を用いた不特定話者音声認識や,感情・意図といったパラ言語情報の高精度抽出を実現した。ケプストラムの時系列として表現される音声スペクトルを分布系列へと変換し,任意の二分布間距離と求める。この時,非ユークリッド空間における分布間距離を採用する(バタチャリヤ距離)と,非言語的特徴を表現する数学モデルであるアフィン変換に対して,分布間距離は不変となる。全ての二分布間距離を求めることは,全分布で張られる幾何学構造を規定することに等しいが,距離不変は構造不変の性質をもたらす。これは,構造音韻論と呼ばれる言語学の一分野を数学的,物理学的に解釈することに成功したことを意味する。音的差異(コントラスト)のみに着眼して音声を構造的に表象する方法論に基づいて,音声認識,及び感情・意図推定を検討した。前者については,孤立母音系列という非常に限られたタスクではあるが,四千人以上の音声データを用いた音響モデルよりも高い精度を示し,後者においても,ピッチに関する情報を付与することで従来方法と比較して,より精度の高い方法を実現した。

報告書

(2件)

2005 実績報告書
2004 実績報告書

研究成果
(11件)

すべて 2006 2005 2004

すべて雑誌論文 (11件)

[雑誌論文] 音声の構造的表象と音声の相対音感2006
- 著者名/発表者名
  峯松信明, 西村多寿子, 櫻庭京子
- 雑誌名
  
  音響学会春期講演論文集 1-P-17
  
  ページ: 177-178
- 関連する報告書
  2005 実績報告書
[雑誌論文] Mathematical evidence of the acoustic universal structure in speech2005
- 著者名/発表者名
  N.Minematsu
- 雑誌名
  
  Proc.ICASSP
  
  ページ: 889-992
- 関連する報告書
  2005 実績報告書 2004 実績報告書
[雑誌論文] Japanese vowel recognition based on structural representation of speech2005
- 著者名/発表者名
  T.Murakami, K.Maruyama, N.Minematsu, K.Hirose
- 雑誌名
  
  Proc.EUROSPEECH
  
  ページ: 1261-1264
- 関連する報告書
  2005 実績報告書
[雑誌論文] Japanese vowel recognition using external structure of speech2005
- 著者名/発表者名
  T.Murakami, K.Maruayma, N.Minematsu, K.Hirose
- 雑誌名
  
  Proc.ASRU
  
  ページ: 203-208
- 関連する報告書
  2005 実績報告書
[雑誌論文] 構造不変の定理とそれに基づく音声ゲシュタルトの導出2005
- 著者名/発表者名
  峯松信明, 西村多寿子, 西成活広裕, 櫻庭京子
- 雑誌名
  
  電子情報通信学会音声研究会資料 SP2005-12
  
  ページ: 1-8
- NAID
  10016435675
- 関連する報告書
  2005 実績報告書
[雑誌論文] 音声の相対音感〜音声と音楽の同質性に関する一考察〜2005
- 著者名/発表者名
  峯松信明, 西村多寿子
- 雑誌名
  
  電子情報通信学会音声研究会資料 SP2005-131
  
  ページ: 121-126
- NAID
  110003486932
- 関連する報告書
  2005 実績報告書
[雑誌論文] 音声の音響的普遍構造に着眼したパラ・非言語情報推定に関する実験的検討2005
- 著者名/発表者名
  藤野, 峯松, 広瀬
- 雑誌名
  
  日本音響学会春季講演論文集
  
  ページ: 59-60
- NAID
  10018037084
- 関連する報告書
  2004 実績報告書
[雑誌論文] 構造不変の定理に基づく音声の構造的表象とその距離尺度2005
- 著者名/発表者名
  峯松他5人
- 雑誌名
  
  日本音響学会春季講演論文集
  
  ページ: 25-26
- NAID
  10018036994
- 関連する報告書
  2004 実績報告書
[雑誌論文] 音声の構造的表象に基づく音響的照合に関する実験的検討2005
- 著者名/発表者名
  丸山, 村上, 峯松, 広瀬
- 雑誌名
  
  日本音響学会春季講演論文集
  
  ページ: 27-28
- NAID
  10018037004
- 関連する報告書
  2004 実績報告書
[雑誌論文] The acoustic universal structure in speech and its correlation to para-linguistic information in speech2004
- 著者名/発表者名
  N.Minematsu et al.
- 雑誌名
  
  Proc.Int.Workshop on Man-machine Symbiotic Systems
  
  ページ: 69-79
- 関連する報告書
  2004 実績報告書
[雑誌論文] 構造音韻論の物理実装に基づく新しい音声の音響的表象2004
- 著者名/発表者名
  峯松, 松井, 広瀬
- 雑誌名
  
  電子情報通信学会音声研究会SP2004-27
  
  ページ: 47-52
- NAID
  110003295854
- 関連する報告書
  2004 実績報告書

人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築

研究代表者

峯松 信明 東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)

11,600千円 (直接経費: 11,600千円)

報告書

研究成果

[雑誌論文] 音声の構造的表象と音声の相対音感2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Mathematical evidence of the acoustic universal structure in speech2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Japanese vowel recognition based on structural representation of speech2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Japanese vowel recognition using external structure of speech2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 構造不変の定理とそれに基づく音声ゲシュタルトの導出2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 音声の相対音感〜音声と音楽の同質性に関する一考察〜2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 音声の音響的普遍構造に着眼したパラ・非言語情報推定に関する実験的検討2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 構造不変の定理に基づく音声の構造的表象とその距離尺度2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 音声の構造的表象に基づく音響的照合に関する実験的検討2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] The acoustic universal structure in speech and its correlation to para-linguistic information in speech2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 構造音韻論の物理実装に基づく新しい音声の音響的表象2004

著者名/発表者名

雑誌名

NAID

関連する報告書

峯松信明東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)