2005 Fiscal Year Annual Research Report

人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築

Research Project

Project/Area Number	16016219
Research Institution	The University of Tokyo
Principal Investigator	峯松信明東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)
Co-Investigator(Kenkyū-buntansha)	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
Keywords	構造不変の定理 / 音響的普遍構造 / 構造音韻論 / 聴覚生理学 / 音的差異 / 音声インターフェイス / 音声対話システム / ゲシュタルト
Research Abstract	音声によって伝搬される情報は,言語情報,パラ言語情報,非言語情報に分類される。従来の音声情報処理パラダイムでは,まずパラ言語情報を音声の物理現象から分離し,言語情報+非言語情報となった音声に対して,非言語情報の和をとることで(即ち,数千,数万という話者の音声を集めることで)言語情報を抽出する,という方法論を構築してきた。聴覚生理学,脳科学の知見によれば,言語情報と非言語情報は分離して脳で処理されているとのモデルが提案されている。即ち「集めること」なく,両者を分離できる,ということである。本研究では,音声の物理現象から話者,音響機器特性などの静的な非言語情報を分離する枠組みを,脳科学の知見を考慮しつつ提案した。その応用として,一人の話者の音声を用いた不特定話者音声認識や,感情・意図といったパラ言語情報の高精度抽出を実現した。ケプストラムの時系列として表現される音声スペクトルを分布系列へと変換し,任意の二分布間距離と求める。この時,非ユークリッド空間における分布間距離を採用する(バタチャリヤ距離)と,非言語的特徴を表現する数学モデルであるアフィン変換に対して,分布間距離は不変となる。全ての二分布間距離を求めることは,全分布で張られる幾何学構造を規定することに等しいが,距離不変は構造不変の性質をもたらす。これは,構造音韻論と呼ばれる言語学の一分野を数学的,物理学的に解釈することに成功したことを意味する。音的差異(コントラスト)のみに着眼して音声を構造的に表象する方法論に基づいて,音声認識,及び感情・意図推定を検討した。前者については,孤立母音系列という非常に限られたタスクではあるが,四千人以上の音声データを用いた音響モデルよりも高い精度を示し,後者においても,ピッチに関する情報を付与することで従来方法と比較して,より精度の高い方法を実現した。

Research Products
(6 results)

All 2006 2005

All Journal Article (6 results)

[Journal Article] 音声の構造的表象と音声の相対音感2006
- Author(s)
  峯松信明, 西村多寿子, 櫻庭京子
- Journal Title
  
  音響学会春期講演論文集 1-P-17
  
  Pages: 177-178
[Journal Article] Mathematical evidence of the acoustic universal structure in speech2005
- Author(s)
  N.Minematsu
- Journal Title
  
  Proc.ICASSP
  
  Pages: 889-992
[Journal Article] Japanese vowel recognition based on structural representation of speech2005
- Author(s)
  T.Murakami, K.Maruyama, N.Minematsu, K.Hirose
- Journal Title
  
  Proc.EUROSPEECH
  
  Pages: 1261-1264
[Journal Article] Japanese vowel recognition using external structure of speech2005
- Author(s)
  T.Murakami, K.Maruayma, N.Minematsu, K.Hirose
- Journal Title
  
  Proc.ASRU
  
  Pages: 203-208
[Journal Article] 構造不変の定理とそれに基づく音声ゲシュタルトの導出2005
- Author(s)
  峯松信明, 西村多寿子, 西成活広裕, 櫻庭京子
- Journal Title
  
  電子情報通信学会音声研究会資料 SP2005-12
  
  Pages: 1-8
[Journal Article] 音声の相対音感〜音声と音楽の同質性に関する一考察〜2005
- Author(s)
  峯松信明, 西村多寿子
- Journal Title
  
  電子情報通信学会音声研究会資料 SP2005-131
  
  Pages: 121-126

2005 Fiscal Year Annual Research Report

人間による音声情報処理過程の分析とそれを応用した音声対話インターフェイスの構築

Principal Investigator

峯松 信明 東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)

Research Products

[Journal Article] 音声の構造的表象と音声の相対音感2006

Author(s)

Journal Title

[Journal Article] Mathematical evidence of the acoustic universal structure in speech2005

Author(s)

Journal Title

[Journal Article] Japanese vowel recognition based on structural representation of speech2005

Author(s)

Journal Title

[Journal Article] Japanese vowel recognition using external structure of speech2005

Author(s)

Journal Title

[Journal Article] 構造不変の定理とそれに基づく音声ゲシュタルトの導出2005

Author(s)

Journal Title

[Journal Article] 音声の相対音感〜音声と音楽の同質性に関する一考察〜2005

Author(s)

Journal Title

峯松信明東京大学, 大学院・新領域創成科学研究科, 助教授 (90273333)