2015 年度実績報告書

発声障害者のための高品質かつ柔軟な音声合成技術の確立

研究課題

研究課題/領域番号	15J10727
研究機関	奈良先端科学技術大学院大学
研究代表者	田中宏奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
研究期間 (年度)	2015-04-24 – 2017-03-31
キーワード	喉頭摘出者 / 音声合成 / 電気式人工喉頭 / 基本周波数
研究実績の概要	本年度の研究業績として、査読付き国際会議２件、国内会議４件である。構築したシステムは、入力される無喉頭音声（電気音声）から実時間予測される韻律情報（F0パターン）に応じて電気式人工喉頭を直接制御する，実験的な実機システムを構築した．評価実験より，従来の電気音声と比較して，大幅な自然性の改善を確認した．本研究は，従来のシステムである音声を収録し変換処理をかけること（ソフトウェア）で音質を改善しようとする枠組みではなく，補助器具自体（ハードウェア）を本質的に改良するという新しい取り組みである．喉頭摘出者の口から抑揚のある音声を生成可能な，対面会話においても使用可能な音声合成技術を確立する．喉頭摘出者は初めて日常的に音声合成技術の恩恵を受けることができるようになる．また，さらなる予測精度改善を目指し，物理モデルを考慮した包括的な統計モデルを構築した． F0パターンは声帯に張力を与える甲状軟骨の運動によって生み出されており，その制御機構の確率モデルが提案されている．従来の確率モデルと述べた物理モデルを考慮した確率モデルをProduct-of-Experts(PoE) の枠組により統合することで，F0パターンの物理的な生成過程の制約を考慮した上で，電気音声の特徴量系列に対応するF0パターンの予測を可能とする統計的F0予測法を提案した．実験的評価より，提案法により，F0予測精度および強調電気音声の自然性の改善を確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由・音声データの収集およびフィードバックの獲得複数のユーザの使用により，音声データの収集を行った．また、本データを効率的に用いることにより，更なる技術の改良を行った．更に，実際の喉頭摘出者に使用してもらい、フィードバックを得た．・音声生成過程の物理的なメカニズムを考慮した提案法の改善提案手法及びそれを搭載した電気式人工喉頭の変換精度を向上させた．その際に，収集した音声データを用いて改善を行った．
今後の研究の推進方策	・システムの統合及び提案手法搭載電気式人工喉頭の実験的導入実際のユーザーによる提案法電気式人工喉頭の使用，提案手法の変換モデルの自動学習・自動更新を付与し，喉頭摘出による発声障害者のための実用的かつ高品質な音声合成システムを確立する．・提案手法の実用化および他の手法の模索小型デバイスとして携帯性の高い実機を目指す．また，1 年目で考案した手法の弱点を改良し、更なる精度の向上を目指す．その際にも，音源情報は推定しなければいけないので，今までの研究で培った技術・データは生きてくる．さらに優れた発声障害者補助の形を模索する．

研究成果
(6件)

すべて 2016 2015

すべて学会発表 (6件) (うち国際学会 2件)

[学会発表] 電気音声強調のための統計的F0予測におけるProduct-of-ExpertsによるF0パターン生成過程モデルの導入2016
- 著者名/発表者名
  田中宏，亀岡弘和，戸田智基，中村哲
- 学会等名
  SP
- 発表場所
  別府国際コンベンションセンター B-ConPlaza (大分県、別府市)
- 年月日
  2016-03-28 – 2016-03-29
[学会発表] Statistical F0 prediction for electrolaryngeal speech enhancement considering generative process of F0 contours within product of experts framework2016
- 著者名/発表者名
  Kou Tanaka, Hirokazu Kameoka, Tomoki Toda, and Satoshi Nakamura
- 学会等名
  ICASSP
- 発表場所
  中国、上海
- 年月日
  2016-03-20 – 2016-03-25
- 国際学会
[学会発表] F0パターン生成過程を考慮したProduct-of-Expertsに基づく電気音声強調のための統計的F0予測法2016
- 著者名/発表者名
  田中宏，亀岡弘和，戸田智基，中村哲
- 学会等名
  ASJ
- 発表場所
  桐蔭横浜大学 (神奈川県、横浜市)
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] An enhanced electrolarynx with automatic fundamental frequency control based on statistical prediction2015
- 著者名/発表者名
  Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti and Satoshi Nakamura
- 学会等名
  ASSETS
- 発表場所
  ポルトガル、リスボン
- 年月日
  2015-10-26 – 2015-10-28
- 国際学会
[学会発表] 統計的手法を用いた電気式人工喉頭制御における遅延時間と予測精度の調査2015
- 著者名/発表者名
  田中宏，戸田智基，ニュービッググラム，サクティサクリアニ，中村哲
- 学会等名
  ASJ
- 発表場所
  会津大学 (福島県、会津若松市)
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] リアルタイム音源予測に基づく電気式人工喉頭制御の実装2015
- 著者名/発表者名
  田中宏，戸田智基，ニュービッググラム，サクティサクリアニ，中村哲
- 学会等名
  SP
- 発表場所
  新潟大学駅南キャンパスときめいと (新潟県、新潟市)
- 年月日
  2015-06-18 – 2015-06-19

2015 年度 実績報告書

発声障害者のための高品質かつ柔軟な音声合成技術の確立

研究代表者

田中 宏 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 電気音声強調のための統計的F0予測におけるProduct-of-ExpertsによるF0パターン生成過程モデルの導入2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Statistical F0 prediction for electrolaryngeal speech enhancement considering generative process of F0 contours within product of experts framework2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] F0パターン生成過程を考慮したProduct-of-Expertsに基づく電気音声強調のための統計的F0予測法2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] An enhanced electrolarynx with automatic fundamental frequency control based on statistical prediction2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計的手法を用いた電気式人工喉頭制御における遅延時間と予測精度の調査2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] リアルタイム音源予測に基づく電気式人工喉頭制御の実装2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実績報告書

田中宏奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)