2012 Fiscal Year Annual Research Report

バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー技術の構築

Research Project

Project/Area Number	22680016
Research Institution	Nara Institute of Science and Technology
Principal Investigator	戸田智基奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)
Project Period (FY)	2010-04-01 – 2014-03-31
Keywords	音声情報処理 / 音声信号処理 / 音声合成 / 声質変換 / 声質制御 / リアルタイム処理 / 自動適応 / バリアフリー
Research Abstract	入力音声の特徴を自動的に学習しながら、リアルタイムで声質を自在に変換・制御できる次世代ボイスチェンジャー技術とその応用技術の構築を目指し、要素技術であるユーザーカスタマイズ機能を備えた声質制御法の改善（実施計画１）、自動オンライン適応法の評価（実施計画２）、各要素技術の統合による次世代ボイスチェンジャー技術とその応用技術の構築（実施計画３）に取り組んだ。前年度までに構築したボイスチェンジャー応用技術として、発声障害者補助のための無喉頭音声強調、周囲に迷惑をかけないサイレント音声強調、任意の歌手の声質による歌唱を実現する歌声用ボイスチェンジャーを対象とし、さらなる性能改善を行った。無喉頭音声強調においては、電気式人工喉頭を用いた発声に対して、従来手法で生じていた明瞭性劣化の問題を解決するために、信号処理技術と統計処理技術を組み合わせたハイブリッド変換技術を提案し、その有効性を示した。また、実環境への応用を想定し、計算リソースが限られた状況下でも動作する低演算量なリアルタイムボイスチェンジャー技術を開発し、無喉頭音声強調およびサイレント音声強調において、その有効性を示した。歌声用ボイスチェンジャーにおいては、声質制御技術および自動適応技術を導入することで、任意の歌手から任意の歌手への変換技術を構築した。さらに、事前に変換モデルを学習する際に，ある特定歌手による大量の歌声データを要するという問題点を解決するために、学習データを効率的に生成する技術についても新たに構築した。また、新たな声質制御技術として、歌手の年齢を制御できる機能の実現を目指し、声質変換技術や歌声音声合成技術を駆使することで、歌声において知覚される年齢に影響を与える音響特徴量の分析を行った。本研究成果は高い評価を受け、国内外において計3つの賞を受賞するに至った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 予定より進んでいる計画や、若干遅れ気味の計画があるが、全体的にみるとほぼ予定通り順調に進んでいる。
Strategy for Future Research Activity	当初の予定通り、要素技術の開発および要素技術の統合に取り組む。今後の技術発展の見通しを良くするために、数理的に統一的な枠組みで統合することを試みつつ、個々の応用技術に特化させた改良にも取り組む。各応用技術のデモソフトウェア・アプリケーションの作成のみでなく、実際のユーザによる評価にも取り組んでいく予定である。

Research Products
(16 results)

All 2013 2012 Other

All Journal Article (6 results) (of which Peer Reviewed: 5 results) Presentation (10 results)

[Journal Article] （招待・解説）サイレント音声コミュニケーションのための音声強調技術2013
- Author(s)
  戸田智基
- Journal Title
  
  ケミカルエンジニアリング
  
  Volume: Vol. 58, No. 3 Pages: 25-30
[Journal Article] Statistical voice conversion techniques for body-conducted unvoiced speech enhancement2012
- Author(s)
  Tomoki Toda
- Journal Title
  
  IEEE Transactions on Audio, Speech and Language Processing
  
  Volume: Vol. 20, No. 9 Pages: 2505-2517
- DOI
  10.1109/TASL.2012.2205241
- Peer Reviewed
[Journal Article] Statistical approaches to enhancement of body-conducted speech detected with non-audible murmur microphone2012
- Author(s)
  Tomoki Toda
- Journal Title
  
  Proceedings of ICME CME
  
  Volume: CD-ROM Pages: 623-628
- DOI
  10.1109/ICCME.2012.6275604
- Peer Reviewed
[Journal Article] Implementation of computationally efficient real-time voice conversion2012
- Author(s)
  Tomoki Toda
- Journal Title
  
  Proceedings of INTERSPEECH
  
  Volume: CD-ROM Pages: 4ページ（ページ番号なし）
- Peer Reviewed
[Journal Article] Model training using parallel data with mismatched pause positions in statistical esophageal speech enhancement2012
- Author(s)
  Mayumi Kishimoto
- Journal Title
  
  Proceedings of ICSP
  
  Volume: CD-ROM Pages: 590-594
- Peer Reviewed
[Journal Article] Singing voice conversion method based on many-to-many eigenvoice conversion and training data generation using a singing-to-singing synthesis system2012
- Author(s)
  Hironori Doi
- Journal Title
  
  Proceedings of APSIPA ASC
  
  Volume: CD-ROM Pages: 6ページ（ページ番号なし）
- Peer Reviewed
[Presentation] VocaListenerによる学習データ生成を利用した多対多固有声変換に基く歌声声質変換
- Author(s)
  土井啓成
- Organizer
  音楽情報科学研究会
- Place of Presentation
  近江町交流プラザ（石川県）
[Presentation] 多対多固有声変換に基づく歌声声質変換及び歌声合成を用いた学習データ生成
- Author(s)
  土井啓成
- Organizer
  日本音響学会秋季研究発表会
- Place of Presentation
  信州大学（長野県）
[Presentation] リアルタイム肉伝導音声変換処理のDSP上への実装
- Author(s)
  森口拓人
- Organizer
  日本音響学会秋季研究発表会
- Place of Presentation
  信州大学（長野県）
[Presentation] 特定話者の同一文発話間におけるスペクトル特徴量変動とその予測
- Author(s)
  犬飼辰夫
- Organizer
  日本音響学会秋季研究発表会
- Place of Presentation
  信州大学（長野県）
[Presentation] 同一文発話間における話者内スペクトル特徴量変動とその予測
- Author(s)
  犬飼辰夫
- Organizer
  音声研究会
- Place of Presentation
  東北工業大学（宮城県）
[Presentation] 統計的手法に基づくリアルタイム声質変換処理のDSP上への実装
- Author(s)
  森口拓人
- Organizer
  音声研究会
- Place of Presentation
  東北工業大学（宮城県）
[Presentation] 無喉頭音声から通常音声へのリアルタイム声質変換処理のDSP上への実装
- Author(s)
  森口拓人
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  東京工科大学（東京都）
[Presentation] 統計的手法に基づく電気音声変換における変換特徴量に関する調査
- Author(s)
  田中宏
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  東京工科大学（東京都）
[Presentation] 歌声の知覚年齢に沿った声質制御に向けた音響特徴量の調査
- Author(s)
  小林和弘
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  東京工科大学（東京都）
[Presentation] 同一文発話間におけるスペクトル特徴量変動予測の評価
- Author(s)
  犬飼辰夫
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  東京工科大学（東京都）

2012 Fiscal Year Annual Research Report

バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー技術の構築

Principal Investigator

戸田 智基 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)

Current Status of Research Progress

Reason

Research Products

[Journal Article] （招待・解説）サイレント音声コミュニケーションのための音声強調技術2013

Author(s)

Journal Title

[Journal Article] Statistical voice conversion techniques for body-conducted unvoiced speech enhancement2012

Author(s)

Journal Title

DOI

[Journal Article] Statistical approaches to enhancement of body-conducted speech detected with non-audible murmur microphone2012

Author(s)

Journal Title

DOI

[Journal Article] Implementation of computationally efficient real-time voice conversion2012

Author(s)

Journal Title

[Journal Article] Model training using parallel data with mismatched pause positions in statistical esophageal speech enhancement2012

Author(s)

Journal Title

[Journal Article] Singing voice conversion method based on many-to-many eigenvoice conversion and training data generation using a singing-to-singing synthesis system2012

Author(s)

Journal Title

[Presentation] VocaListenerによる学習データ生成を利用した多対多固有声変換に基く歌声声質変換

Author(s)

Organizer

Place of Presentation

[Presentation] 多対多固有声変換に基づく歌声声質変換及び歌声合成を用いた学習データ生成

Author(s)

Organizer

Place of Presentation

[Presentation] リアルタイム肉伝導音声変換処理のDSP上への実装

Author(s)

Organizer

Place of Presentation

[Presentation] 特定話者の同一文発話間におけるスペクトル特徴量変動とその予測

Author(s)

Organizer

Place of Presentation

[Presentation] 同一文発話間における話者内スペクトル特徴量変動とその予測

Author(s)

Organizer

Place of Presentation

[Presentation] 統計的手法に基づくリアルタイム声質変換処理のDSP上への実装

Author(s)

Organizer

Place of Presentation

[Presentation] 無喉頭音声から通常音声へのリアルタイム声質変換処理のDSP上への実装

Author(s)

Organizer

Place of Presentation

[Presentation] 統計的手法に基づく電気音声変換における変換特徴量に関する調査

Author(s)

Organizer

Place of Presentation

[Presentation] 歌声の知覚年齢に沿った声質制御に向けた音響特徴量の調査

Author(s)

Organizer

Place of Presentation

[Presentation] 同一文発話間におけるスペクトル特徴量変動予測の評価

Author(s)

Organizer

Place of Presentation

戸田智基奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)