2012 Fiscal Year Annual Research Report
バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー技術の構築
Project/Area Number |
22680016
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
戸田 智基 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)
|
Project Period (FY) |
2010-04-01 – 2014-03-31
|
Keywords | 音声情報処理 / 音声信号処理 / 音声合成 / 声質変換 / 声質制御 / リアルタイム処理 / 自動適応 / バリアフリー |
Research Abstract |
入力音声の特徴を自動的に学習しながら、リアルタイムで声質を自在に変換・制御できる次世代ボイスチェンジャー技術とその応用技術の構築を目指し、要素技術であるユーザーカスタマイズ機能を備えた声質制御法の改善(実施計画1)、自動オンライン適応法の評価(実施計画2)、各要素技術の統合による次世代ボイスチェンジャー技術とその応用技術の構築(実施計画3)に取り組んだ。前年度までに構築したボイスチェンジャー応用技術として、発声障害者補助のための無喉頭音声強調、周囲に迷惑をかけないサイレント音声強調、任意の歌手の声質による歌唱を実現する歌声用ボイスチェンジャーを対象とし、さらなる性能改善を行った。無喉頭音声強調においては、電気式人工喉頭を用いた発声に対して、従来手法で生じていた明瞭性劣化の問題を解決するために、信号処理技術と統計処理技術を組み合わせたハイブリッド変換技術を提案し、その有効性を示した。また、実環境への応用を想定し、計算リソースが限られた状況下でも動作する低演算量なリアルタイムボイスチェンジャー技術を開発し、無喉頭音声強調およびサイレント音声強調において、その有効性を示した。歌声用ボイスチェンジャーにおいては、声質制御技術および自動適応技術を導入することで、任意の歌手から任意の歌手への変換技術を構築した。さらに、事前に変換モデルを学習する際に,ある特定歌手による大量の歌声データを要するという問題点を解決するために、学習データを効率的に生成する技術についても新たに構築した。また、新たな声質制御技術として、歌手の年齢を制御できる機能の実現を目指し、声質変換技術や歌声音声合成技術を駆使することで、歌声において知覚される年齢に影響を与える音響特徴量の分析を行った。本研究成果は高い評価を受け、国内外において計3つの賞を受賞するに至った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定より進んでいる計画や、若干遅れ気味の計画があるが、全体的にみるとほぼ予定通り順調に進んでいる。
|
Strategy for Future Research Activity |
当初の予定通り、要素技術の開発および要素技術の統合に取り組む。今後の技術発展の見通しを良くするために、数理的に統一的な枠組みで統合することを試みつつ、個々の応用技術に特化させた改良にも取り組む。各応用技術のデモソフトウェア・アプリケーションの作成のみでなく、実際のユーザによる評価にも取り組んでいく予定である。
|
Research Products
(16 results)