2015 年度実績報告書

話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究

研究課題

研究課題/領域番号	25730105
研究機関	東京大学
研究代表者	齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声情報処理 / 声質変換 / 話者認識 / 言語認識 / テンソル解析 / 行列変量
研究実績の概要	本研究課題では、音声情報処理技術のさらなる発展を目指し、言語性と話者性を分離して捉える数理的モデルの確立及び、言語性・話者性の数理モデルを確率的に統合するフレームワークによる音声情報処理技術の実現を目的とし、その技術確立に取り組んだ。音声情報処理においては、認識処理については、言語的内容を取り扱う音声認識や話者の情報を取り扱う話者認識といったモデルの構築においてそれぞれの情報を適切に分離する事が、音声を生成する合成の処理においてはこれらの分離された情報を適切に統合する技術が求められている。本年度における研究課題の遂行では、「行列変量確率分布」に基づく声質変換を時系列モデリングに拡張する事を本格的に検討すると共に、テンソル解析に基づく手法の効果を話者認識・言語認識の両面に対して検討し、その比較を行った。それぞれの個別の検討課題について、一定の有効性を確認することができた。今後はテンソル解析と行列変量確率分布を理論的・実用的な側面で融合していくことを検討している。

研究成果
(10件)

すべて 2016 2015

すべて学会発表 (10件) (うち国際学会 1件)

[学会発表] 声・顔の固有空間と GMM に基づく両空間の印象的対応付けに関する検討2016
- 著者名/発表者名
  大杉康仁, 齋藤大輔, 峯松信明
- 学会等名
  音学シンポジウム2016
- 発表場所
  東海大学（東京都港区）
- 年月日
  2016-05-21 – 2016-05-22
[学会発表] テンソル分解に基づく音声表現とその言語識別・話者識別への応用2016
- 著者名/発表者名
  鈴木颯, 齋藤大輔, 峯松信明
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  別府国際コンベンションセンター（大分県別府市）
- 年月日
  2016-03-28 – 2016-03-29
[学会発表] 話者空間の基底成分を用いたディープニューラルネットワーク任意話者声質変換2016
- 著者名/発表者名
  橋本哲弥, 柏木陽佑, 齋藤大輔, 峯松信明
- 学会等名
  日本音響学会春季研究発表会
- 発表場所
  横浜桐蔭大学（神奈川県横浜市）
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] Integration of Multi-Speaker Training and Speaker Adaptation for DBLSTM-RNN-based Text-To-Speech Synthesis2016
- 著者名/発表者名
  Yi Zhao, Nobuaki Minematsu, Daisuke Saito
- 学会等名
  日本音響学会春季研究発表会
- 発表場所
  横浜桐蔭大学（神奈川県横浜市）
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] 行列変量ガウス混合モデルに基づく複数フレーム特徴を考慮した声質変換2016
- 著者名/発表者名
  楊奕, 内田秀継, 齋藤大輔, 峯松信明
- 学会等名
  日本音響学会春季研究発表会
- 発表場所
  横浜桐蔭大学（神奈川県横浜市）
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] Deep Neural Networkを用いた話者空間基底への射影による声質変換2015
- 著者名/発表者名
  橋本哲弥, 柏木陽佑, 齋藤大輔, 峯松信明
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  名古屋工業大学（愛知県名古屋市）
- 年月日
  2015-12-02 – 2015-12-03
[学会発表] MULTI-SPEAKER SPEECH SYNTHESIS AND SPEAKER ADAPTATION BASED ON DEEP BIDIRECTIONAL LONG SHORT-TERM MEMORY RECURRENT NEURAL NETWORK2015
- 著者名/発表者名
  Yi Zhao, Nobuaki Minematsu, Daisuke Saito
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  名古屋工業大学（愛知県名古屋市）
- 年月日
  2015-12-02 – 2015-12-03
[学会発表] テンソル分解に基づく言語情報表現を用いた言語識別に関する検討2015
- 著者名/発表者名
  鈴木颯, 齋藤大輔, 峯松信明
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  会津大学（福島県会津若松市）
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] 混合ガウス分布を用いた自然音声への人工感の付与2015
- 著者名/発表者名
  小林航也, 齋藤大輔, 峯松信明, 広瀬啓吉
- 学会等名
  音学シンポジウム2015
- 発表場所
  電気通信大学（東京都調布市）
- 年月日
  2015-05-23 – 2015-05-24
[学会発表] SAS: A speaker verification spoofing database containing diverse attacks2015
- 著者名/発表者名
  Zhizheng Wu, Ali Khodabakhsh, Cenk Demiroglu, Junichi Yamagishi, Daisuke Saito, Tomoki Toda, Simon King
- 学会等名
  ICASSP
- 発表場所
  Brisbane (Australia)
- 年月日
  2015-04-19 – 2015-04-24
- 国際学会

2015 年度 実績報告書

話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究

研究代表者

齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)

研究成果

[学会発表] 声・顔の固有空間と GMM に基づく両空間の印象的対応付けに関する検討2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] テンソル分解に基づく音声表現とその言語識別・話者識別への応用2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 話者空間の基底成分を用いたディープニューラルネットワーク任意話者声質変換2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Integration of Multi-Speaker Training and Speaker Adaptation for DBLSTM-RNN-based Text-To-Speech Synthesis2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 行列変量ガウス混合モデルに基づく複数フレーム特徴を考慮した声質変換2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Deep Neural Networkを用いた 話者空間基底への射影による声質変換2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] MULTI-SPEAKER SPEECH SYNTHESIS AND SPEAKER ADAPTATION BASED ON DEEP BIDIRECTIONAL LONG SHORT-TERM MEMORY RECURRENT NEURAL NETWORK2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] テンソル分解に基づく言語情報表現を用いた言語識別に関する検討2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 混合ガウス分布を用いた自然音声への人工感の付与2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] SAS: A speaker verification spoofing database containing diverse attacks2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実績報告書

齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)

[学会発表] Deep Neural Networkを用いた話者空間基底への射影による声質変換2015