2014 年度実施状況報告書

話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究

研究課題

研究課題/領域番号	25730105
研究機関	東京大学
研究代表者	齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声情報処理 / 声質変換 / 話者認識 / 行列変量 / テンソル解析
研究実績の概要	本研究課題では、音声情報処理技術のさらなる発展を目指し、言語性と話者性を分離して捉える数理的モデルの確立及び、言語性・話者性の数理モデルを確率的に統合するフレームワークによる音声情報処理技術の実現を目的とし、その技術確立に取り組んだ。音声情報処理においては、認識処理については、言語的内容を取り扱う音声認識や話者の情報を取り扱う話者認識といったモデルの構築においてそれぞれの情報を適切に分離する事が、音声を生成する合成の処理においてはこれらの分離された情報を適切に統合する技術が求められている。本年度における研究課題の遂行では、「行列変量確率分布」に基づく声質変換の更なる高精度化の検討、及びテンソル解析に基づく手法の話者認識への応用について初期検討を行った。前年度に行った混合ガウス分布に基づく声質変換における、行列形状のままその確率分布を考える「行列変量確率分布」の導入をさらに発展させ、時系列モデリングについても初期検討を行った。時間的に複数にわたる観測を直接行列変量確率分布でモデル化する方法論の定式化を行った。また話者認識の標準的な特徴量であるi-Vector に変わる新しい特徴量の導入として、これまで取り組んできたテンソル解析に基づく特徴量の利用を検討し、日本語音声での話者認識実験を通して、従来の特徴量よりも高精度な話者認識が行える事を確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由声質変換および話者認識において、それぞれ従来知見から一歩進んだ実験検証を行えており、おおむね順調に進展しているといえる。
今後の研究の推進方策	行列変量確率分布そのものを話者認識の認識系に組み込む事で、話者認識フレームワーク全体を統合的に取り扱う手法について現在検討を行っている。
次年度使用額が生じた理由	購入する備品の価格変動に伴うもの
次年度使用額の使用計画	備品の購入等に当てる予定

研究成果
(6件)

すべて 2015 2014

すべて学会発表 (6件)

[学会発表] テンソル分解に基づく話者情報表現を用いた話者識別の検討2015
- 著者名/発表者名
  チン・トゥアン・トゥー, 齋藤大輔, 峯松信明, 広瀬啓吉
- 学会等名
  日本音響学会春季研究発表会
- 発表場所
  中央大学, 東京
- 年月日
  2015-03-16 – 2015-03-18
[学会発表] Voice Conversion Based on Matrix Variate Gaussian Mixture Model2014
- 著者名/発表者名
  Daisuke Saito, Hidenobu Doi, Nobuaki Minematsu, Keikichi Hirose
- 学会等名
  IEEE ICSP2014
- 発表場所
  杭州, 中国
- 年月日
  2014-10-19 – 2014-10-23
[学会発表] Application of Matrix Variate Gaussian Mixture Model to Statistical Voice Conversion2014
- 著者名/発表者名
  Daisuke Saito, Hidenobu Doi, Nobuaki Minematsu, Keikichi Hirose
- 学会等名
  ISCA INTERSPEECH 2014
- 発表場所
  Singapore, Singapore
- 年月日
  2014-09-14 – 2014-09-18
[学会発表] Tensor representation for speaker characteristics in speech2014
- 著者名/発表者名
  Daisuke Saito, Nobuaki Minematsu, Keikichi Hirose
- 学会等名
  Forum Acusticum
- 発表場所
  Krakow, Poland
- 年月日
  2014-09-07 – 2014-09-12
[学会発表] 話者依存サブネットワークを用いた深層学習による多対一声質変換2014
- 著者名/発表者名
  橋本哲弥, 柏木陽佑, 齋藤大輔, 広瀬啓吉, 峯松信明
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  北海学園大学, 北海道
- 年月日
  2014-09-03 – 2014-09-05
[学会発表] 行列変量正規分布の混合モデルとその声質変換への応用2014
- 著者名/発表者名
  齋藤大輔, 土井秀信, 峯松信明, 広瀬啓吉
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  ホテル花巻，岩手県
- 年月日
  2014-07-24 – 2014-07-26

2014 年度 実施状況報告書

話者性・言語性の数理モデルと確率的統合に基づく音声情報処理の研究

研究代表者

齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)

現在までの達成度 (区分)

理由

研究成果

[学会発表] テンソル分解に基づく話者情報表現を用いた話者識別の検討2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Voice Conversion Based on Matrix Variate Gaussian Mixture Model2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Application of Matrix Variate Gaussian Mixture Model to Statistical Voice Conversion2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Tensor representation for speaker characteristics in speech2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 話者依存サブネットワークを用いた深層学習による多対一声質変換2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 行列変量正規分布の混合モデルと その声質変換への応用2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実施状況報告書

齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)

[学会発表] 行列変量正規分布の混合モデルとその声質変換への応用2014