Project/Area Number |
20KK0233
|
Research Category |
Fund for the Promotion of Joint International Research (Fostering Joint International Research (B))
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
鵜木 祐史 北陸先端科学技術大学院大学, 先端科学技術研究科, 教授 (00343187)
|
Co-Investigator(Kenkyū-buntansha) |
赤木 正人 北陸先端科学技術大学院大学, 先端科学技術研究科, 名誉教授 (20242571)
木谷 俊介 北陸先端科学技術大学院大学, 先端科学技術研究科, 講師 (70635367)
森田 翔太 福山大学, 工学部, 講師 (70780378)
|
Project Period (FY) |
2020-10-27 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥18,720,000 (Direct Cost: ¥14,400,000、Indirect Cost: ¥4,320,000)
Fiscal Year 2024: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2023: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2022: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2021: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2020: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
|
Keywords | 音声コミュニケーション / エンリッチメント / 非言語情報知覚 / 音声了解度 / voice 2.0 / 非言語情報 / 聴覚エンリッチメント |
Outline of Research at the Start |
現在,Society 5.0を目指した音声情報処理は,AI技術革新の恩恵を受け,飛躍的に進歩している.合成音声の音質は人間のものに肉薄しているが,音声コミュニケーションの本質である,話し手の情動や意図,態度といった表現豊かな音声合成には至っていない.本研究では,ヒトの音声知覚・生成メカニズムに着目し,データサイエンスとの有機的結合を図ることで,エンリッチな音声コミュニケーションの拡張(VOICE 2.0)を目指す.本研究の期待するところは,音声の明瞭さや,感情,個人性,発話スタイルの変化といった声質をヒトのように高低・強弱の程度を制御して,音声コミュニケーションの付加価値を高めることにある.
|
Outline of Annual Research Achievements |
本課題では,表現豊かな音声コミュニケーションを実現するために,音声の数理工学的な情報表現において,音声のエンリッチな情報を言語・非言語・パラ言語情報にそれぞれ分離し,それらを個別に制御することで,次の5点に関する音声エンリッチメント(VOICE 2.0)を実現する.課題① 言語情報におけるエンリッチメント,課題② 非言語情報(話者性)のエンリッチメント,課題③ 非言語情報(感情)のエンリッチメント,課題④ 非言語情報(声の質感)のエンリッチメント,課題⑤ パラ言語情報(緊迫感など)のエンリッチメント.本研究の期待するところは,音声の明瞭さや,感情,個人性,発話スタイルの変化といった声質をヒトのように高低・強弱の程度を制御して,音声コミュニケーションの付加価値を高めることにある. 2023年度は,前年度課題で検討した課題③~課題⑤について継続して実施した.まず課題③では,感情知覚と変調スペクトルに含まれる変調成分の関係を調査した.その結果,振幅包絡線に含まれる変調成分(0~16 Hz)が感情知覚に重要であることを明らかにした.さらに,この中に含まれる瞬時変調周波数の時間変化の傾きが感情知覚に関わることも明らかにした.次に課題④では,声の質感と音色属性に関わる特徴(音質評価指標)(シャープネス,ラフネス,変動強度)ならびに基本周波数成分の時間特徴(ジッターとシマー)の関係を検討した.その結果,音質評価指標ならびにジッター・シマーが声の自然さの評価に使えることがわかった.最後に課題⑤では,緊迫感知覚と変調スペクトルに含まれる変調成分の関係を調査した.その結果,課題③と同様に音声の振幅包絡線に含まれる瞬時変調周波数成分の時間変化の傾きを調整することで緊迫感を低下できることが可能であることがわかった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度は,計画どおり,前年度課題で検討した,音声の非言語・パラ言語情報と変調知覚の関係を調査した.その結果,前述したように,瞬時変調周波数の時間変化を操作することが非言語・パラ言語情報のエンリッチメントに直結していることを明らかにした.このことから,瞬時変調周波数の時間変化を操作することで,非言語・パラ言語情報をエンリッチできることが容易に予想できる.次年度には,感情知覚や緊迫感知覚の向上を目指した最終検討に入ることができる.以上から区分(2)の進捗状況であると判断した.
|
Strategy for Future Research Activity |
コロナ禍が明けてから,はじめて研究代表者のみドレスデン工科大学を訪問することができた.この3年間の互いの研究機関での研究進捗について,対面で報告し,今後の研究展開についても議論した.研究自体には,大きな進展があったことから,今後はオンラインの利用も含め,研究交流を一層深めていく予定である.研究分担者による長期滞在は,現在もなお難しいところではあるが,最終年度は,研究分担者も含め,全員でドレスデン工科大を訪問し,深く議論をして研究ゴールに到着できるようにしていきたい.
|