2015 Fiscal Year Annual Research Report

話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究

Research Project

Project/Area Number	25730105
Research Institution	The University of Tokyo
Principal Investigator	齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声情報処理 / 声質変換 / 話者認識 / 言語認識 / テンソル解析 / 行列変量
Outline of Annual Research Achievements	本研究課題では、音声情報処理技術のさらなる発展を目指し、言語性と話者性を分離して捉える数理的モデルの確立及び、言語性・話者性の数理モデルを確率的に統合するフレームワークによる音声情報処理技術の実現を目的とし、その技術確立に取り組んだ。音声情報処理においては、認識処理については、言語的内容を取り扱う音声認識や話者の情報を取り扱う話者認識といったモデルの構築においてそれぞれの情報を適切に分離する事が、音声を生成する合成の処理においてはこれらの分離された情報を適切に統合する技術が求められている。本年度における研究課題の遂行では、「行列変量確率分布」に基づく声質変換を時系列モデリングに拡張する事を本格的に検討すると共に、テンソル解析に基づく手法の効果を話者認識・言語認識の両面に対して検討し、その比較を行った。それぞれの個別の検討課題について、一定の有効性を確認することができた。今後はテンソル解析と行列変量確率分布を理論的・実用的な側面で融合していくことを検討している。

Research Products
(10 results)

All 2016 2015

All Presentation (10 results) (of which Int'l Joint Research: 1 results)

[Presentation] 声・顔の固有空間と GMM に基づく両空間の印象的対応付けに関する検討2016
- Author(s)
  大杉康仁, 齋藤大輔, 峯松信明
- Organizer
  音学シンポジウム2016
- Place of Presentation
  東海大学（東京都港区）
- Year and Date
  2016-05-21 – 2016-05-22
[Presentation] テンソル分解に基づく音声表現とその言語識別・話者識別への応用2016
- Author(s)
  鈴木颯, 齋藤大輔, 峯松信明
- Organizer
  電子情報通信学会音声研究会
- Place of Presentation
  別府国際コンベンションセンター（大分県別府市）
- Year and Date
  2016-03-28 – 2016-03-29
[Presentation] 話者空間の基底成分を用いたディープニューラルネットワーク任意話者声質変換2016
- Author(s)
  橋本哲弥, 柏木陽佑, 齋藤大輔, 峯松信明
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  横浜桐蔭大学（神奈川県横浜市）
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] Integration of Multi-Speaker Training and Speaker Adaptation for DBLSTM-RNN-based Text-To-Speech Synthesis2016
- Author(s)
  Yi Zhao, Nobuaki Minematsu, Daisuke Saito
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  横浜桐蔭大学（神奈川県横浜市）
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] 行列変量ガウス混合モデルに基づく複数フレーム特徴を考慮した声質変換2016
- Author(s)
  楊奕, 内田秀継, 齋藤大輔, 峯松信明
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  横浜桐蔭大学（神奈川県横浜市）
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] Deep Neural Networkを用いた話者空間基底への射影による声質変換2015
- Author(s)
  橋本哲弥, 柏木陽佑, 齋藤大輔, 峯松信明
- Organizer
  電子情報通信学会音声研究会
- Place of Presentation
  名古屋工業大学（愛知県名古屋市）
- Year and Date
  2015-12-02 – 2015-12-03
[Presentation] MULTI-SPEAKER SPEECH SYNTHESIS AND SPEAKER ADAPTATION BASED ON DEEP BIDIRECTIONAL LONG SHORT-TERM MEMORY RECURRENT NEURAL NETWORK2015
- Author(s)
  Yi Zhao, Nobuaki Minematsu, Daisuke Saito
- Organizer
  電子情報通信学会音声研究会
- Place of Presentation
  名古屋工業大学（愛知県名古屋市）
- Year and Date
  2015-12-02 – 2015-12-03
[Presentation] テンソル分解に基づく言語情報表現を用いた言語識別に関する検討2015
- Author(s)
  鈴木颯, 齋藤大輔, 峯松信明
- Organizer
  日本音響学会秋季研究発表会
- Place of Presentation
  会津大学（福島県会津若松市）
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] 混合ガウス分布を用いた自然音声への人工感の付与2015
- Author(s)
  小林航也, 齋藤大輔, 峯松信明, 広瀬啓吉
- Organizer
  音学シンポジウム2015
- Place of Presentation
  電気通信大学（東京都調布市）
- Year and Date
  2015-05-23 – 2015-05-24
[Presentation] SAS: A speaker verification spoofing database containing diverse attacks2015
- Author(s)
  Zhizheng Wu, Ali Khodabakhsh, Cenk Demiroglu, Junichi Yamagishi, Daisuke Saito, Tomoki Toda, Simon King
- Organizer
  ICASSP
- Place of Presentation
  Brisbane (Australia)
- Year and Date
  2015-04-19 – 2015-04-24
- Int'l Joint Research

2015 Fiscal Year Annual Research Report

話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究

Principal Investigator

齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)

Research Products

[Presentation] 声・顔の固有空間と GMM に基づく両空間の印象的対応付けに関する検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] テンソル分解に基づく音声表現とその言語識別・話者識別への応用2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 話者空間の基底成分を用いたディープニューラルネットワーク任意話者声質変換2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Integration of Multi-Speaker Training and Speaker Adaptation for DBLSTM-RNN-based Text-To-Speech Synthesis2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 行列変量ガウス混合モデルに基づく複数フレーム特徴を考慮した声質変換2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Deep Neural Networkを用いた 話者空間基底への射影による声質変換2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] MULTI-SPEAKER SPEECH SYNTHESIS AND SPEAKER ADAPTATION BASED ON DEEP BIDIRECTIONAL LONG SHORT-TERM MEMORY RECURRENT NEURAL NETWORK2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] テンソル分解に基づく言語情報表現を用いた言語識別に関する検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 混合ガウス分布を用いた自然音声への人工感の付与2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] SAS: A speaker verification spoofing database containing diverse attacks2015

Author(s)

Organizer

Place of Presentation

Year and Date

齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)

[Presentation] Deep Neural Networkを用いた話者空間基底への射影による声質変換2015