2007 年度実績報告書

言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用

研究課題

研究課題/領域番号	19650036
研究機関	東京大学
研究代表者	峯松信明東京大学, 大学院・工学系研究科, 准教授 (90273333)
研究分担者	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
キーワード	音声の構造的表象 / 言語獲得 / 音声模倣 / 語ゲシュタルト / 話者不変量 / 音声生成・合成
研究概要	話者不変の音声表象である音声の構造的表象は,音イベント群の個々の要素を絶対的に表象するのではなく,個々のイベント間のコントラストをf-divergenceで知られる変換不変量を用いて表象する新しい音声表象方式である。これを用いると,音声を全体的,包括的に表象することとなる。従来申請者らは,この構造表象を用いた音声認識を検討してきた。話者によって表象が変化しない点を利用し,非常に小数の話者のサンプルを用いて不特定話者音声認識の可能性について検討してきた。その結果,非常に限られたタスクではあるが,数千人の話者より構築された音響的実体を用いる音響モデルよりも,遥かに話者性に対する頑健性が高い音響モデルが構築された。本研究では,その逆のプロセス,即ち,構造を入力として,それを音声に変換するプロセスの計算機上での実装について検討した。音声の構造的表象を発達心理学的に考えると,これは「語ゲシュタルト」と呼ばれるものに相当する。幼児の言語獲得は音声模倣という過程を通して行なわれるが,彼らは九官鳥のように音真似をする訳では無い。父親の発声にも母親の発声にも(言語的内容が等しければ)共通して存在する音響パターンを自分の口を用いて生成する訳である。この話者不変の共通パターンを変換不変量のf-divergenceを通して推定し,推定された構造表象に対して,これを音の実体に戻す操作を計算機上に実装した。本来であれば,話者不変量である構造表象は,話者の身体特性(喉の大きさなど)を捨象した物理表象であるため,この構造に対して,発声者の身体的特性を提供することで音として実現化される枠組みが望まれる。しかしここでは,直接調音パラメータを用いることはせず,該当話者の幾つかの音を初期条件として与え,構造表象を制約条件として用いることで音を生成する方法をとった。初期検討として,初期条件及び制約条件を満たす解候補を,ケプストラム空間(音響空間)からgreedyに探索し音を生成することを試みた。その結果,明瞭性が高いとは言えないまでも,初期条件を提供した話者性を保持しつつ,構造表象によって指定された言語内容を生成することが可能であることを確認できた。

研究成果
(4件)

すべて 2008 2007

すべて雑誌論文 (3件) (うち査読あり 2件) 学会発表 (1件)

[雑誌論文] Structure to speech-speech generation based on infant-like vocal imitation-2008
- 著者名/発表者名
  D. Saito, N. Minematsu, K. Hirose
- 雑誌名
  
  Proc. INTERSPEECH
  
  ページ: 1837-1840
- 査読あり
[雑誌論文] Directional dependency of cepstrum on vocal tract length2008
- 著者名/発表者名
  D. Saito, R. Matsuura, S. Asakawa, N. Minematsu, K. Hirose
- 雑誌名
  
  Proc. Int. Conf. Acoustics, Speech and Signal Processing
  
  ページ: 4485-4488
- 査読あり
[雑誌論文] 構造的表象からの音声生成に関する基礎的検討2007
- 著者名/発表者名
  斎藤大輔, 朝川智, 峯松信明, 広瀬啓吉
- 雑誌名
  
  電子情報通信学会音声研究会SP2007-80
  
  ページ: 55-60
[学会発表] 音声の不変表象に基づく語ゲシュタルトの物理的解釈とそれに基づく幼児の音声模倣の実装2008
- 著者名/発表者名
  斎藤大輔, 朝川智, 峯松信明, 西村多寿子, 広瀬啓吉
- 学会等名
  人工知能学会全国大会
- 発表場所
  北海道
- 年月日
  20080600

2007 年度 実績報告書

言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用

研究代表者

峯松 信明 東京大学, 大学院・工学系研究科, 准教授 (90273333)

研究成果

[雑誌論文] Structure to speech-speech generation based on infant-like vocal imitation-2008

著者名/発表者名

雑誌名

[雑誌論文] Directional dependency of cepstrum on vocal tract length2008

著者名/発表者名

雑誌名

[雑誌論文] 構造的表象からの音声生成に関する基礎的検討2007

著者名/発表者名

雑誌名

[学会発表] 音声の不変表象に基づく語ゲシュタルトの物理的解釈とそれに基づく幼児の音声模倣の実装2008

著者名/発表者名

学会等名

発表場所

年月日

2007 年度実績報告書

峯松信明東京大学, 大学院・工学系研究科, 准教授 (90273333)