• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Annual Research Report

統計的手法と生成過程モデリング手法の融合に基づく音声生成機能拡張技術の構築

Research Project

Project/Area Number 26280060
Research InstitutionNara Institute of Science and Technology

Principal Investigator

戸田 智基  奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)

Co-Investigator(Kenkyū-buntansha) 亀岡 弘和  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 研究員 (20466402)
中村 哲  奈良先端科学技術大学院大学, 情報科学研究科, 教授 (30263429)
猿渡 洋  東京大学, 情報理工学(系)研究科, 教授 (30324974)
サクリアニ サクティ  奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00395005)
NEUBIG Graham  奈良先端科学技術大学院大学, 情報科学研究科, 助教 (70633428)
川波 弘道  奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80335489)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords機能拡張 / 音声合成 / 音声変換 / 信号処理 / 統計処理
Outline of Annual Research Achievements

音声コミュニケーションにおいて物理的・身体的制約により生じている障壁を取り除くために、現存の音声生成過程において併用可能な音声変換基礎技術、および、音声生成機能を拡張する応用技術の構築を目指し、以下の課題に取り組んだ。
調音動作操作機能を備えた統計的声質変換技術の構築(実施計画1):統計的声質変換の基礎技術を拡張し、音声信号からの調音動作パラメータ推定処理、および、調音動作パラメータからの音声信号生成処理を実現し、これらの処理を繋ぎ合わせることで、調音動作操作機能を備えた統計的声質変換技術を構築した。また、調音動作操作時に適切な調音動作を保持するために、調音動作パラメータ補正技術を構築した。
音源生成器官動作操作機能を備えた統計的韻律変換技術の構築(実施計画2):音声F0パターン生成過程の確率モデルを考案し、音声信号からの音源生成器官動作指令推定技術を構築し、動作指令操作による音声F0パターン変換処理を実現した。さらに、言語情報からのF0パターン生成技術も構築した。
調音動作・音声同期収録データベースの構築(実施計画3):磁気センサを用いてリアルタイムに調音動作を収録できる発話観測システムを用いて、調音動作と音声信号の同期収録を実施した。男性話者3名を対象とし、各話者50~100文程度収録した。
音声生成機能を拡張する複数の応用技術の構築(実施計画4):統計的手法に基づく実時間声質変換基盤技術の性能を改善し、音声生成機能拡張技術として、発声障碍者補助技術、外国語発声生成技術、体内伝導音声強調技術、ボーカルエフェクター/ボイスチェンジャー技術に対するベースラインシステムを構築した。
これらの研究成果をとりまとめ、国内外において多数の研究発表を行った。本研究成果は高い評価を受け、国内外において計2つの賞を受賞し、また、国際会議において1件の招待講演を実施するに至った。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

当初の計画は全て実施した。さらに、音声生成機能を拡張する複数の応用技術の構築については、当初計画していなかった応用技術までも構築することができた。

Strategy for Future Research Activity

当初の計画に基づき実施する。また、当初計画していなかった関連研究課題についても、積極的に取り組む。

Causes of Carryover

調音-音声データを1日で複数人収録することが可能となり、発話観測システムの使用回数を減らすことができたため。

Expenditure Plan for Carryover Budget

当初の計画を上回る研究成果が出ているため、国際会議での研究成果発表のための旅費に使用する。

  • Research Products

    (40 results)

All 2015 2014

All Journal Article (11 results) (of which Peer Reviewed: 11 results,  Acknowledgement Compliant: 11 results) Presentation (28 results) Patent(Industrial Property Rights) (1 results) (of which Overseas: 1 results)

  • [Journal Article] Direct F0 control of an electrolarynx based on statistical excitation feature prediction and its evaluation through simulation2014

    • Author(s)
      Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceedings of INTERSPEECH

      Volume: ― Pages: 31~35

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Speech prosody generation for text-to-speech synthesis based on generative model of F0 contours2014

    • Author(s)
      Kento Kadowaki, Tatsuma Ishihara, Nobukatsu Hojo, Hirokazu Kameoka
    • Journal Title

      Proceedings of INTERSPEECH

      Volume: ― Pages: 2322~2326

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Statistical singing voice conversion with direct waveform modification based on the spectrum differential2014

    • Author(s)
      Kazuhiro Kobayashi, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceedings of INTERSPEECH

      Volume: ― Pages: 2514~2518

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] An evaluation of target speech for a nonaudible murmur enhancement system in noisy environments2014

    • Author(s)
      Sakura Tsuruta, Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceedings of APSIPA ASC

      Volume: ― Pages: 1~4

    • DOI

      10.1109/APSIPA.2014.7041618

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Gender-dependent spectrum differential models for perceived age control based on direct waveform modification in singing voice conversion2014

    • Author(s)
      Kazuhiro Kobayashi, Tomoki Toda, Tomoyasu Nakano, Masataka Goto, Graham Neubig, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceedings of APSIPA ASC

      Volume: ― Pages: 1~4

    • DOI

      10.1109/APSIPA.2014.7041590

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] An inter-speaker evaluation through simulation of electrolarynx control based on statistical F0 prediction2014

    • Author(s)
      Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura
    • Journal Title

      Proceedings of APSIPA ASC

      Volume: ― Pages: 1~4

    • DOI

      10.1109/APSIPA.2014.7041593

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Modulation spectrum-based post-filter for GMM-based voice conversion2014

    • Author(s)
      Shinnosuke Takamichi, Tomoki Toda, Alan W. Black, Satoshi Nakamura
    • Journal Title

      Proceedings of APSIPA ASC

      Volume: ― Pages: 1~4

    • DOI

      10.1109/APSIPA.2014.7041540

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Modified post-filter to recover modulation spectrum for HMM-based speech synthesis2014

    • Author(s)
      Shinnosuke Takamichi, Tomoki Toda, Alan W. Black, Satoshi Nakamura
    • Journal Title

      Proceedings of GlobalSIP

      Volume: ― Pages: 547~551

    • DOI

      10.1109/GlobalSIP.2014.7032177

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Unified approach for underdetermined BSS, VAD, dereverberation and DOA estimation with multichannel factorial HMM2014

    • Author(s)
      Takuya Higuchi, Hirokazu Kameoka
    • Journal Title

      Proceedings of GlobalSIP

      Volume: ― Pages: 562~566

    • DOI

      10.1109/GlobalSIP.2014.7032180

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Augmented speech production based on real-time statistical voice conversion2014

    • Author(s)
      Tomoki Toda
    • Journal Title

      Proceedings of GlobalSIP

      Volume: ― Pages: 592~596

    • DOI

      10.1109/GlobalSIP.2014.7032186

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Golomb-Rice coding optimized via LPC for frequency domain audio coder2014

    • Author(s)
      Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, Takehiro Moriya
    • Journal Title

      Proceedings of GlobalSIP

      Volume: ― Pages: 1024~1028

    • DOI

      10.1109/GlobalSIP.2014.7032276

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] 統計的音源予測に基づく電気式人工喉頭のリアルタイム制御2015

    • Author(s)
      田中 宏, 戸田 智基,Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 非母語話者の音声に対する継続長補正の評価2015

    • Author(s)
      倶羅 真也, 高道 慎之介, 戸田 智基,亀岡 弘和, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 日本人英語音声合成における話者性を保持した韻律補正法と英語習熟度が与える影響2015

    • Author(s)
      大島 悠司, 高道 慎之介, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 統計的パラメトリック音声合成における変調スペクトルを考慮したパラメータ生成法2015

    • Author(s)
      高道 慎之介, 戸田 智基, Alan W Black, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 統計的パラメトリック音声合成における変調スペクトル制約付きトラジェクトリ学習2015

    • Author(s)
      高道 慎之介, 戸田 智基, Alan W Black, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 音声入力による韻律制御機能を有するHMM音声合成システムの改良2015

    • Author(s)
      西垣 友理, 高道 慎之介, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 重回帰混合正規分布モデルに基づく声質制御における精度改善2015

    • Author(s)
      久保 和隆, 小林 和弘, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] Articulatory controllable speech modification based on gaussian mixture models with direct waveform modification using spectrum differential2015

    • Author(s)
      Patrick Lumban Tobing, Kazuhiro Kobayashi, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 非可聴つぶやき強調音声の雑音環境下における明瞭性改善に関する検討2015

    • Author(s)
      鶴田 さくら, 田中 宏, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 空気/体内伝導マイクを併用した雑音環境下における非可聴つぶやき強調2015

    • Author(s)
      田尻 祐介, 鶴田 さくら, 田中 宏, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 差分スペクトル補正に基づく歌声声質変換におけるパラメータ生成法に関する調査2015

    • Author(s)
      小林 和弘, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 複合ウェーブレットモデルとF0パターン生成過程の確率モデルを用いたテキスト音声合成2015

    • Author(s)
      門脇 健人, 北条 伸克, 亀岡 弘和
    • Organizer
      日本音響学会2015年春季研究発表会
    • Place of Presentation
      中央大学後楽園キャンパス(東京都文京区)
    • Year and Date
      2015-03-16 – 2015-03-18
  • [Presentation] 統計的パラメトリック音声合成のための変調スペクトル制約付きトラジェクトリ学習アルゴリズム2015

    • Author(s)
      高道 慎之介, 戸田 智基, Alan W. Black, 中村 哲
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      南の美ら花ホテルミヤヒラ(沖縄県石垣市)
    • Year and Date
      2015-03-02 – 2015-03-03
  • [Presentation] 多チャンネル階乗隠れマルコフモデルによる音響情景分析のための統合的アプローチ2015

    • Author(s)
      樋口卓哉, 亀岡弘和
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      南の美ら花ホテルミヤヒラ(沖縄県石垣市)
    • Year and Date
      2015-03-02 – 2015-03-03
  • [Presentation] 統計的パラメトリック音声合成のための変調スペクトルを考慮した音声パラメータ生成アルゴリズム2015

    • Author(s)
      高道 慎之介, 戸田 智基, Alan W. Black, 中村 哲
    • Organizer
      情報処理学会 音声言語情報処理研究会
    • Place of Presentation
      合歓の郷ホテル&リゾート(三重県志摩市)
    • Year and Date
      2015-02-27 – 2015-02-28
  • [Presentation] 韻律・音韻の部分補正に基づく話者性を保持した日本人英語音声合成と英語習熟度が与える影響2015

    • Author(s)
      大島 悠司, 高道 慎之介, 戸田 智基, Sakriani Sakti, Graham Neubig, 中村 哲
    • Organizer
      情報処理学会 音声言語情報処理研究会
    • Place of Presentation
      合歓の郷ホテル&リゾート(三重県志摩市)
    • Year and Date
      2015-02-27 – 2015-02-28
  • [Presentation] Articulatory controllable speech modification using sequential inversion and production mapping with Gaussian mixture models2014

    • Author(s)
      Patrick Lumban Tobing, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura, Ayu Purwarianti
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      東京工業大学すずかけ台キャンパス(神奈川県横浜市)
    • Year and Date
      2014-12-15 – 2014-12-16
  • [Presentation] HMMを用いた日本人英語音声合成における話者性を保持した韻律補正2014

    • Author(s)
      大島 悠司, 高道 慎之介, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      東京工業大学すずかけ台キャンパス(神奈川県横浜市)
    • Year and Date
      2014-12-15 – 2014-12-16
  • [Presentation] 音声入力に基づく韻律制御機能を有するHMM音声合成システム2014

    • Author(s)
      西垣 友理, 高道 慎之介, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      東京工業大学すずかけ台キャンパス(神奈川県横浜市)
    • Year and Date
      2014-12-15 – 2014-12-16
  • [Presentation] 知覚年齢をリアルタイムに制御可能な歌声声質制御インタフェース2014

    • Author(s)
      小林 和弘, 戸田 智基, 中野 倫靖, 後藤 真孝, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      第22回インタラクティブシステムとソフトウェアに関するワークショップ(WISS 2014)
    • Place of Presentation
      浜名湖ロイヤルホテル(静岡県浜松市)
    • Year and Date
      2014-11-26 – 2014-11-28
  • [Presentation] 重回帰混合正規分布モデルに基づく声質制御における制御パラメータの設計2014

    • Author(s)
      久保 和隆, 小林 和弘, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      九州大学筑紫キャンパス(福岡県春日市)
    • Year and Date
      2014-11-13 – 2014-11-14
  • [Presentation] 雑音環境下における明瞭性に着目した非可聴つぶやき強調処理における目標音声の評価2014

    • Author(s)
      鶴田 さくら, 田中 宏, 戸田 智基, Graham Neubig, Sakriani sakti, 中村 哲
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      九州大学筑紫キャンパス(福岡県春日市)
    • Year and Date
      2014-11-13 – 2014-11-14
  • [Presentation] 統計的音源予測を用いた電気式人工喉頭制御法の評価2014

    • Author(s)
      田中 宏, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2014年秋季研究発表会
    • Place of Presentation
      北海学園大学豊平キャンパス(北海道札幌市)
    • Year and Date
      2014-09-03 – 2014-09-05
  • [Presentation] 雑音環境下での受聴を想定した非可聴つぶやき強調処理における変換音声有声化の効果2014

    • Author(s)
      鶴田 さくら, 田中 宏, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2014年秋季研究発表会
    • Place of Presentation
      北海学園大学豊平キャンパス(北海道札幌市)
    • Year and Date
      2014-09-03 – 2014-09-05
  • [Presentation] 性別依存重回帰混合正規分布モデル基づく差分スペクトル補正による歌声の知覚年齢制御法2014

    • Author(s)
      小林 和弘, 戸田 智基, 中野 倫靖, 後藤 真孝, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      日本音響学会2014年秋季研究発表会
    • Place of Presentation
      北海学園大学豊平キャンパス(北海道札幌市)
    • Year and Date
      2014-09-03 – 2014-09-05
  • [Presentation] 音声F0パターン生成過程の確率モデルによるテキストからの韻律生成及びその評価2014

    • Author(s)
      門脇 健人, 亀岡 弘和
    • Organizer
      日本音響学会2014年秋季研究発表会
    • Place of Presentation
      北海学園大学豊平キャンパス(北海道札幌市)
    • Year and Date
      2014-09-03 – 2014-09-05
  • [Presentation] 統計的音源予測に基づく電気式人工喉頭制御法のシミュレーションによる評価2014

    • Author(s)
      田中 宏, 戸田 智基, Graham Neubig, Sakriani Sakti, 中村 哲
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      近江町交流プラザ(石川県金沢市)
    • Year and Date
      2014-06-19 – 2014-06-20
  • [Presentation] 音声F0パターン生成過程の確率モデルによるテキストからの韻律生成2014

    • Author(s)
      門脇 健人, 北条 伸克, 石原 達馬, 亀岡 弘和
    • Organizer
      電子情報通信学会/日本音響学会 音声研究会
    • Place of Presentation
      日本大学文理学部キャンパス(東京都世田谷区)
    • Year and Date
      2014-05-24 – 2014-05-25
  • [Patent(Industrial Property Rights)] 電気式人工喉頭装置2014

    • Inventor(s)
      戸田 智基, 田中 宏, 他3名
    • Industrial Property Rights Holder
      戸田 智基, 田中 宏, 他3名
    • Industrial Property Rights Type
      特許
    • Industrial Property Number
      PCT/JP2014/069274
    • Filing Date
      2014-07-22
    • Overseas

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi