2002 Fiscal Year Annual Research Report
能動的知覚モデルに基づく歌唱レンダリングシステム作成に関する研究
Project/Area Number |
14380165
|
Research Institution | Wakayama University |
Principal Investigator |
河原 英紀 和歌山大学, システム工学部, 教授 (40294300)
|
Co-Investigator(Kenkyū-buntansha) |
西浦 敬信 和歌山大学, システム工学部, 助手 (70343275)
片寄 晴弘 関西学院大学, 理工学部, 助教授 (70294303)
|
Keywords | 音声分析 / 音声合成 / モーフィング / 基本周波数 / 放射特性 / パラ言語情報 / 変換聴覚フィードバック / 音声の動特性 |
Research Abstract |
初年度に当たり、研究の基盤技術の確立と必要なツール群の整備、および基本的な特性の測定を進めた。 まず、本研究の鍵を握る技術として、異なる音声の間を特性が連続的に変化する音声で埋めることのできる音声モーフィング技術を開発し、基本的な評価を行った。モーフィングの基盤として、我々が開発した高品質音声分析変換合成システムであるSTRAIGHTを用いることにより、既存の音声知覚に関する知見を活かすことのできる安定で直感的な情報表現に基づく処理が可能となった。パラ言語および非言語情報のモーフィング評価のため、声優による感情表現を含んだ音声試料を用いた実験を遂行し、補間領域のモーフィングでは素材として用いた原音声に匹敵する自然性を有する高品質な刺激の作成が可能であることを実証した。本モーフィング技術においては、素材となる音声試料それぞれの対応関係を明示的に指定し操作することを可能とすることにより、パラ言語および非言語情報のための新しい研究戦略として提案した「組織的ダウングレーディング」を遂行するための具体的な基盤を確立した。本成果については、国際会議等での一連の発表を開始した。 本研究の最終段階では、音声の放射特性が重要な基礎データとして用いられる。初年度では、この放射特性を発声者自身の音声そのものを測定信号として計測する方法を開発し、評価した。この成果については、国際会議ならびに学術雑誌に報告した。 さらに、音声の基本周波数を人間がどのように制御しているかを調べるための変換聴覚フィードバック手法の精密化と、STRAIGHTにおける基本周波数等の音源情報抽出の改良など、ツール群の整備を進めた。
|
Research Products
(6 results)
-
[Publications] Hideki Kawahara: "Systematic Downgrading for Investigating "Naturaless" in Synthesized singing using STRAIGHT : A High Quality VOCODER"143th MEETING OF THE ACOUSTICAL SOCIETY OF AMERICA. Vol.111, No.5, Pt.2. 2334-2334 (2002)
-
[Publications] Hideki Kawahara, Parham Zolfaghari, Alain de Cheveigne: "ON F0 TRAJECTORY OPTIMIZATION FOR VERY HIGH-QUALITY SPEECH MANIPULATION"Proceedings of JCSLP 2002. Volume4. 2397-2400 (2002)
-
[Publications] Masumi Nukina, Hideki Kawahara: "Cross spectral measurement of head related speech transfer functions using speaker's own voice"The Journal of the Acoustical Society of America. Volume112, Issue5. 2324-2324 (2003)
-
[Publications] Hisami Matsui, Hideki Kawahara: "Auditorily motivated elastic spectral distance and its application to emotional morphing of portrayal speech"The Journal of the Acoustical Society of America. Volume112, Issue5. 2323-2323 (2002)
-
[Publications] Hideki Kawahara, Hisami Matsui: "Auditory morphing based on an elastic perceptual distance metric in an interference free time-frequency representation"Proceedings of ICASSP 2003. Vol.1. 256-259 (2003)
-
[Publications] 貫名真澄, 河原英紀: "発話時の頭部周辺での音声の伝達特性について"日本音響学会誌. Vol.59, no.5. 256-260 (2003)