• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

言語情報とパラ言語情報を統合した音声の構造的表象の提案とその音声合成への応用

研究課題

研究課題/領域番号 19650036
研究種目

萌芽研究

配分区分補助金
研究分野 知覚情報処理・知能ロボティクス
研究機関東京大学

研究代表者

峯松 信明  東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)

研究分担者 広瀬 啓吉  東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
研究期間 (年度) 2007 – 2008
研究課題ステータス 完了 (2008年度)
配分額 *注記
3,300千円 (直接経費: 3,300千円)
2008年度: 1,500千円 (直接経費: 1,500千円)
2007年度: 1,800千円 (直接経費: 1,800千円)
キーワード音声の構造的表象 / f-divergence / 写像不変量 / 空間探索 / 言語的情報・パラ言語的特徴 / 音声合成 / 音声模倣 / 言語獲得 / 語ゲシュタルト / 話者不変量 / 音声生成・合成
研究概要

音声が運ぶ情報は大きく,言語的情報,パラ言語的情報,非言語的情報に分かれる。我々は音声から非言語的情報に相当する音響特徴量のみを分離する方法を提案している。年齢・性別による音声の音響的変形,収録機器・伝送機器による音声の音響的変形はいずれも,静的な空間写像として数学的にモデル化できる。よって,写像不変量でもって音声を表象・モデル化することで,静的な変形(変換)に不変な音声情報処理が可能となる。我々は分布間の距離尺度であるf-divergenceが如何なる変換に対しても不変であることを証明しており,発声中の全ての音響事象を分布として捉え,任意の二分布間(事象間)距離を計測し,距離行列として音声を(話者不変的に)表象する手法を提案している。距離行列は一つの幾何学的形態を規定するため,これを音声の構造的表象と呼んでいる。非言語情報がそぎ落とされるということは,言語情報とパラ言語情報のみが表象された音声表象であることを意味する。本研究では,この構造表象に対して,非言語的情報である話者の性別,年齢,体格(即ち声道形状)を戻すことで音声を生成する枠組みを検討した。即ち,言語情報,パラ言語情報は構造として与えられ,その構造を音に変換する声道の長さや形状の情報(非言語的情報)を付与することで音に変換する枠組みである。
具体的には,幾つかの既に実現された音事象を初期条件として与え,構造的表象を制約条件としてその後の音事象を次々と音響空間内に定位する方法を採択した。この場合,定位済みの事象群をn個とすると,このn個の事象を中心とする超楕円を描き,n個の超楕円の交点が次に生成すべき音の定位場所,となる。この探索問題を計算機上に実装し,また,いくつかの高速化アルゴリズムを検討することで,現実的な計算量で構造からの音声生成を可能にした。この音声生成方式は,言語情報+パラ言語情報が混在した音声表象(構造的表象)を出発点として音を導出するという点が従来の音声生成方式とは大きく異なる。

報告書

(2件)
  • 2008 実績報告書
  • 2007 実績報告書
  • 研究成果

    (18件)

すべて 2009 2008 2007

すべて 雑誌論文 (9件) (うち査読あり 8件) 学会発表 (8件) 図書 (1件)

  • [雑誌論文] Improvement of structure to speech conversion using iterative optimization2009

    • 著者名/発表者名
      D.Saito, Y.Qiao, N.Minematsu, K.Hirose
    • 雑誌名

      Proc.Speech and Computer

      ページ: 174-179

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] Optimal event search using a structural cost function-improvement of structure to speech conversion-2009

    • 著者名/発表者名
      D.Saito, Y.Qiao, N.Minematsu, K.Hirose
    • 雑誌名

      Proc.INTERSPEECH

      ページ: 2047-2050

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] Structure to speech--speech generation based on infant-like vocal imitation--2008

    • 著者名/発表者名
      D.Saito, S.Asakawa, N.Minematsu, K.Hirose
    • 雑誌名

      Proc.INTERSPEECH

      ページ: 1837-1840

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] f-divergence is a generalized invariant measure between distributions2008

    • 著者名/発表者名
      Y.Qiao, N.Minematsu
    • 雑誌名

      Proc.INTERSPEECH

      ページ: 1349-1352

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] Holistic and prosodic representation of the segmental aspect of speech2008

    • 著者名/発表者名
      N.Minematsu, T.Nishimura, D.Saito, S.Asakawa, Y.Qiao
    • 雑誌名

      Proc.Int.Conf.Speech Prosody

      ページ: 169-172

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] Multi-stream parameterization for structural speech recognition2008

    • 著者名/発表者名
      S.Asakawa, N.Minematsu, K.Hirose
    • 雑誌名

      Proc.ICASSP

      ページ: 4097-4100

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] Structure to speech-speech generation based on infant-like vocal imitation-2008

    • 著者名/発表者名
      D. Saito, N. Minematsu, K. Hirose
    • 雑誌名

      Proc. INTERSPEECH

      ページ: 1837-1840

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [雑誌論文] Directional dependency of cepstrum on vocal tract length2008

    • 著者名/発表者名
      D. Saito, R. Matsuura, S. Asakawa, N. Minematsu, K. Hirose
    • 雑誌名

      Proc. Int. Conf. Acoustics, Speech and Signal Processing

      ページ: 4485-4488

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [雑誌論文] 構造的表象からの音声生成に関する基礎的検討2007

    • 著者名/発表者名
      斎藤大輔, 朝川智, 峯松信明, 広瀬啓吉
    • 雑誌名

      電子情報通信学会音声研究会SP2007-80

      ページ: 55-60

    • NAID

      110006449178

    • 関連する報告書
      2007 実績報告書
  • [学会発表] 構造評価関数を用いた構造的表象からの音声合成系の高精度化2009

    • 著者名/発表者名
      齋藤大輔, 喬宇, 峯松信明, 広瀬敬吉
    • 学会等名
      電子情報通信学会音声研究会
    • 発表場所
      静岡大学
    • 年月日
      2009-11-01
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 二言語に渡る構造的表象に基づく音声・言語変換の実験的検討2009

    • 著者名/発表者名
      見原隆介, 齋藤大輔, 峯松信明, 広瀬敬吉
    • 学会等名
      電子情報通信学会音声研究会
    • 発表場所
      静岡大学
    • 年月日
      2009-11-01
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 反復解法に基づく構造的表象からの音声合成の高精度化に関する検討2009

    • 著者名/発表者名
      齋藤大輔, 喬宇, 峯松信明, 広瀬敬吉
    • 学会等名
      日本音響学会春季全国大会
    • 発表場所
      東京工業大学
    • 年月日
      2009-03-01
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 音声言語運用が要求する認知的能力と音声言語工学が構築した計算論的能力2008

    • 著者名/発表者名
      峯松信明
    • 学会等名
      電子情報通信学会音声研究会
    • 発表場所
      早稲田大学
    • 年月日
      2008-12-09
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 変換不変性を有するダイバージェンスとその一般形2008

    • 著者名/発表者名
      喬宇, 峯松信明
    • 学会等名
      電子情報通信学会音声研究会
    • 発表場所
      岩手県立大学
    • 年月日
      2008-07-01
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 音声の不変表象に基づく語ゲシュタルトの物理的解釈とそれに基づく幼児の音声模倣の実装2008

    • 著者名/発表者名
      齋藤大輔, 朝川智, 峯松信明, 西村多寿子, 広瀬敬吉
    • 学会等名
      人工知能学会全国大会
    • 発表場所
      北海道・旭川
    • 年月日
      2008-06-15
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 構造的表象からの音声合成とそれに基づく音声模倣に関する検討2008

    • 著者名/発表者名
      齋藤大輔, 朝川智, 峯松信明, 広瀬敬吉
    • 学会等名
      電子情報通信学会音声研究会
    • 発表場所
      大学共同利用施設ACU
    • 年月日
      2008-06-01
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 音声の不変表象に基づく語ゲシュタルトの物理的解釈とそれに基づく幼児の音声模倣の実装2008

    • 著者名/発表者名
      斎藤大輔, 朝川智, 峯松信明, 西村多寿子, 広瀬啓吉
    • 学会等名
      人工知能学会全国大会
    • 発表場所
      北海道
    • 関連する報告書
      2007 実績報告書
  • [図書] "Consideration of infants' vocal imitation through modeling speech as timbre-based melody" in New Frontiers in Artificial Intelligence, LNAI49142008

    • 著者名/発表者名
      N.Minematsu, T.Nishimura
    • 総ページ数
      14
    • 出版者
      Springer
    • 関連する報告書
      2008 実績報告書

URL: 

公開日: 2007-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi