2017 Fiscal Year Annual Research Report
Study on the perception of nonlinguistic information based on the auditory perception mechanism
Project/Area Number |
17J08312
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
朱 治 北陸先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2017-04-26 – 2019-03-31
|
Keywords | 聴覚 / 音声知覚 / 感情音声 / 音声個人性 |
Outline of Annual Research Achievements |
本研究の目的は、人間の聴覚系機能に基づいた手法で、音声の個人性及び感情知覚のメカニズムを解明することです。特に、本研究は音声の個人性及び感情知覚に寄与している時間的な特徴に着目しています。そのために、まず、デジタル信号処理により人間の聴覚末梢系機能を忠実に再現するシステムを構築しました。そして、前述のシステムにより音声信号を分析し、その結果から個人性と感情情報に関係する時間的な特徴を抽出しました。次に、人間の個人性と感情知覚に関係しているかを検証するために、人を対象にした話者弁別実験と感情認識実験を行いました。心理実験では、周波数情報が制限され、時間情報が相対的強調された音声データを利用しました。最後に、人間の聴覚系機能を模擬した手法で抽出した音声の物理的な時間特徴を人間の心理実験からもらった心理データと関連付けて検討しました。具体的には、物理特徴の話者間及び感情間の距離と心理データから心理的な話者間及び感情間の距離をそれぞれ算出して、それらの間の相関を分析しました。その結果、本研究で検討した物理特徴が心理データと高い相関性が確認できました。従って、聴覚系機能に基づいた手法で抽出した音声の時間特徴が音声の個人性及び感情知覚に寄与していることが示唆されました。本研究により振幅包絡線の変調成分と音声知覚の関係の理解をさらに深めて、その体系を補完することができたと考えられます。また、従来の音声の非言語情報知覚に関する研究は、音声生成面に基づいて周波数的な特徴だけを検討されて来たが、音声知覚におけるいろんな情報の知覚メカニズムに対して、聴覚に基づいて周波数特徴と時間特徴を統合的に検討する必要性が示されました。さらに、本研究で利用した手法は音声の話者認識、感情認識、声質変換などの音声工学の技術の開発にも貢献できると考えられます。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度では、研究が順調に進んでおり査読付き雑誌論文は1編が採択され、1編が条件付採択されました。また、査読付き国際会議で2件の発表がありました。 本研究は、まず、音声の変調成分が個人性と感情知覚に寄与しているかを確認しました。その手法としては、音声の周波数手がかりを制限され、音声の振幅包絡線の変調周波数成分だけ保存された雑音駆動音声を用いて、人を対象にした話者弁別と感情認識実験を行いました。実験結果から、変調周波数帯域が有意に話者弁別率と感情認識率に影響しており、振幅包絡線の変調成分は個人性と感情の知覚に寄与していることが示されました。感情知覚については、感情の種類により、周波数成分と変調周波数成分の役割が異なることがわかりました。以上の研究成果は論文にまとめ、2018年中にAcoustical Science and Technology誌に掲載する予定です。 次に、変調周波数成分が音声の個人性と感情知覚に寄与していることがわかった上で、どのように寄与しているかを検討しました。その手法として、まず、聴覚系機能に基づいた特徴抽出の信号処理法を構築し、聴覚系の初期段階における、周波数分析、振幅包絡線抽出、変調周波数分析の機能を模擬します。そしての各周波数と変調周波数帯域における重心、拡散、尖度、歪度、傾斜などの高次統計量を計算し、これらの変調スペクトル特徴と個人性及び感情の認識実験の心理データを関連づけて検討しました。その結果、変調スペクトログラムと特徴量は心理データと高い相関を持ち、変調スペクトル特徴は音声の個人性と感情知覚に寄与していることが示唆されました。以上の研究成果は論文にまとめ、Acoustical Science and Technology誌に投稿し、条件付き採択されました。
|
Strategy for Future Research Activity |
これまでの検討で、音声の変調スペクトル特徴が音声の個人性と感情知覚において大変重要な役割を果たしていることが示されました。今後では、音声変換法の検討により人間の個人性と感情知覚では本当に変調スペクトル特徴を利用しているかどうかを検証します。具体的には、まず、変調スペクトル特徴のコントロールにより音声の変調スペクトログラムを操作する方法を検討します。その上で、音声の時間微細構造をそのまま保存し、操作した変調スペクトログラムから原音に戻す信号処理法を構築します。以上の処理法をもとに音声の話者や感情を変換して、話者弁別実験と感情認識実験を行い、変調スペクトログラムの操作により、音声の個人性情報と感情情報が変化されているかどうかを検証します。さらに、時間微細構造に関して個人性情報と感情情報の操作法についても検討し、人間の聴覚機能に基づいた音声変換法を提案します。また、本研究は聴覚心理学と生理学に基づいた手法で、個人性と感情知覚に寄与する特徴を検討しました。 また、本研究で構築した人間の聴覚機能を模擬した信号処理法と神経生理に基づいた深層学習をうまく融合し、人間の聴覚系を完全模擬した感情音声認識を検討する予定です。具体的には、聴覚末梢系の機能を信号処理により実現し、聴覚系のその上の処理についてディープニューラルネットワークにより模擬します。以上の手法で感情音声認識を提案する上で、提案した感情音声認識法のニューラルネットワークを分析し、これまでに心理的な手法で検討してきた聴覚における機能に対応しているかを検討します。
|
Research Products
(9 results)