研究課題/領域番号 |
19K20618
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分90010:デザイン学関連
|
研究機関 | 電気通信大学 |
研究代表者 |
岸田 拓也 電気通信大学, 大学院情報理工学研究科, 研究員 (80827907)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2020年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2019年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
|
キーワード | 音声信号処理 / 機械学習 / 声質変換 / 感情音声変換 / 音声印象変換 / ボルツマンマシン / 拡散確率モデル / 音響特徴量生成 / エネルギーベースモデル / マルチモーダル / 話者・音韻相互作用 / 系列表現 / 感情音声 / 感情知覚 / 対面コミュニケーション / 視聴覚相互作用 / 音声強調 |
研究開始時の研究の概要 |
感情が様々な強度で表出した発話を撮影・録音し、心理実験によって感情知覚における視聴覚相互作用と音声符号化の影響を調べる。さらに心理実験の結果と音声の音響特徴量を合わせた多変量解析を行い、話者の感情知覚に結びつく音響特徴量を見出す。見出された音響特徴量を操作する音声信号処理によって、「感情が音声の音響的特徴とどのように結びつくのかを明らかにし、対面コミュニケーションと同等に感情を伝えるための音声の強調処理法を開発する」という目的を達する。
|
研究成果の概要 |
音声符号化技術と通信技術を利用した音声のみによるコミュニケーションでは、視覚情報等の利用ができないために、感情・意図・態度・個人性などの非言語情報を正確に伝えることが困難となる。本研究では、非言語情報と音声の音響特徴量との関係をモデル化できるようなニューラルネットワークを考案し、音声の非言語情報における個人性や感情をを変換・強調する手法について検討した。ボルツマンマシンやその関連手法を利用して、モデルの学習に用いていない話者間で個人性の変換が可能な手法や、個人性と感情を同時に変換する手法、声質を因子に分解して因子の操作によって声質の印象を変換する手法などを提案することができた。
|
研究成果の学術的意義や社会的意義 |
本研究で得られた実験結果は、ボルツマンマシンやその関連手法が音声の音響特徴量と非言語情報との関係を表現するのに有効であることを示している。また、画像生成分野で目覚ましい成功を挙げている拡散確率モデルを声質変換課題に適用することに関する研究成果や調査結果は、音声コミュニケーションで声質変換技術をより柔軟に利用するための新たな手法の着想や知見につながった。
|