研究課題/領域番号 |
26280060
|
研究機関 | 名古屋大学 |
研究代表者 |
戸田 智基 名古屋大学, 情報基盤センター, 教授 (90403328)
|
研究分担者 |
亀岡 弘和 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部 メディア認識研究グループ, 主任研究員(特別研究員) (20466402)
中村 哲 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (30263429)
猿渡 洋 東京大学, 情報理工学(系)研究科, 教授 (30324974)
サクリアニ サクティ 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00395005)
Neubig Graham 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (70633428)
川波 弘道 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80335489)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 機能拡張 / 音声合成 / 音声変換 / 信号処理 / 統計処理 |
研究実績の概要 |
音声コミュニケーションにおいて物理的・身体的制約により生じている障壁を取り除くために、現存の音声生成過程において併用可能な音声変換基礎技術、および、音声生成機能を拡張する応用技術の構築を目指し、以下の課題に取り組んだ。 調音動作操作機能を備えた統計的声質変換技術の改善(実施計画1):品質劣化を生み出す主要因であるボコーダによる波形合成処理を回避するために,差分音響特徴量補正に基づく統計的声質変換技術を構築した。本手法を,調音動作操作機能を備えた統計的声質変換技術へと適用し,高い音質を保持したまま調音動作操作による変換処理が可能であることを示した。 音源生成器官動作操作機能を備えた統計的韻律変換技術の構築(実施計画2):統計的音声F0パターン予測モデルと,音声F0パターン生成過程モデルを統合する手法を提案し,物理的制約を満たす統計的音声F0パターン予測処理を可能とした。また,音声信号から推定される音源生成器官動作を操作することで,音声F0パターンを自在に変換する技術を構築した。 音声生成機能拡張のための基礎/応用技術の構築(実施計画3):調音動作機能を備えた統計的声質変換技術の応用として,外国語発声生成に着目し,物理的パラメータ操作に基づく発音補正技術を構築した。また,物理的制約を考慮した統計的音声F0パターン予測技術を喉頭摘出者の電気音声強調に適用することで,従来の発声補助器具と比較してより自然な音声を生成できることを示した。 調音動作・音声同期収録データベースの構築(実施計画4):磁気センサによるリアルタイム発話観測システムを用いて,調音動作と音声信号の同期収録を実施した。男性話者5名と女性話者1名を対象とし,各話者50~100文程度収録した。 これらの研究成果について,国内外にて多数の研究発表を行った。本成果は高い評価を受け,国内において計2つの賞を受賞するに至った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
技術構築については当初計画していた以上の成果が得られている。特に,音声生成機能拡張技術においては,大幅な性能改善が得られる基礎技術を構築することに成功するとともに,応用技術の種類および性能ともに,当初の見込みを上回る結果が得られている。調音音声データベースの構築については,予算額に応じた規模のデータ収録が順調に進んでいるといえる。
|
今後の研究の推進方策 |
当初の計画に基づき実施するが,当初予定していた以上の成果を目指して,さらなる技術改善を目指す。調音音声データベースについては,引き続き予算額に応じた規模でデータ収録を進める。
|
次年度使用額が生じた理由 |
本研究計画を進める上で,調音音声データベース収録を実施することが極めて重要である。昨年度後半の時点で,可能であればもう1回分収録を実施する予定であったが,予算の残額が1回分の収録費用に満たない状況であった。そこで,別の費用として使用するのではなく,次年度に持ち越して改めてデータ収録を実施することにした。
|
次年度使用額の使用計画 |
今年度の予算と合わせて,調音音声データベース収録費用として使用する。
|