研究課題/領域番号 |
18K18069
|
研究機関 | 電気通信大学 |
研究代表者 |
中鹿 亘 電気通信大学, 大学院情報理工学研究科, 助教 (90749920)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 音声信号処理 / 機械学習 / 確率・統計 / 感情変換 / 声質変換 |
研究実績の概要 |
本研究では独自に拡張するボルツマン分布に基づき、音声中の発話者や発話内容、発話者の感情などを同時に推定するフレームワークについて検討する。平成30年度では、まず音声モデリングの精度向上の基礎実験として、制限ボルツマンマシンを独自に拡張したモデルを3つ新たに提案し、それぞれについて定式化、モデル実装、モデル構築、および評価実験を行った。1つ目は音声の複素スペクトルを直接表現する複素制限ボルツマンマシンであり、従来の実数値を表現する制限ボルツマンマシンと比べて高い精度で音声のエンコード(符号化)とデコード(復号化)が可能であることを実験的に示した。さらに、複素制限ボルツマンマシンに対して自己回帰項を追加したモデル(自己回帰複素制限ボルツマンマシン)を用いて複素スペクトル系列を表現する手法を提案し、従来よりも少ない数の隠れ素子数で同等の性能を持つことを示した。また最後に、実系列データ中の長期的な依存関係を捉えるため、長・短記憶構造を持つ制限ボルツマンマシンの拡張モデル:LSTBM(long-short term Boltzmann memory)を提案した。これはRNN (recurrent neural network)の一種であるLSTM (long-short term memory)に着想を得たものであり、LSTMにおいて各隠れ素子が確率的に発火するモデルである(つまり、LSTMを包含する表現)であることを示した。実験では従来の制限ボルツマンマシンや単純な系列表現拡張であるコンディショナル制限ボルツマンマシンと比較して大幅な精度向上が見られ、本研究に関して2019年日本音響学会粟屋潔学術奨励賞を受賞した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成30年度では論文誌1件、国際会議3件、国内研究会7件、解説記事1件の研究発表と、学術奨励賞1件を受賞し、対外的な進捗状況としては概ね良好である。研究の進捗状況としては、基礎モデルの検証が重要であると判断し、当初平成31年度と平成32年度に実施予定であったボルツマンマシンの複素拡張と系列表現拡張について基本的な定式化と基礎的な動作確認を行った。また、未発表であるが適応型制限ボルツマンマシンを用いた感情変換に関する基礎的な実験を実施した。具体的には、発話者を固定して喜怒哀楽平静の5感情を含む感情音声データセットを用い、32次元のメルケプストラム音響特徴量を可視素子、5次元の感情を示すone-hotベクトルを適応素子として隠れ素子数32のボルツマンマシンを訓練し、入力と異なる感情素子を与えて感情変換を試みた。この結果、入力音声の感情とあまり変わらない音声が得られた。基本周波数などの韻律情報が特定の感情を示す重要な特徴量であると考え、続いて基本周波数とその動的特徴量を可視素子に加えて学習させたところ、多少変化が見られたが、自然音声とかけ離れた音声が得られた。
|
今後の研究の推進方策 |
前述のように、同一話者による感情音声変換の基本的な実験を実施したところ、主観的に十分満足のいく品質の音声が得られなかった。この主な原因として、1) 使用した音声データセットは各感情ごとに20単語の音声しか含まれないため、適切に学習させるためには不十分な数であること、2) 韻律情報を表す特徴量として基本周波数のみでは不十分であること、3) 適応型制限ボルツマンマシンでは各感情に対してスペクトル基底の単純な線形変換で感情音声を表現しているが、そのモデル化が不十分であることなどが考えられる。それぞれに対する今後の研究方針として、1) 十分な量の音声データセットを利用する(例えば東京工科大学のプロジェクトが公開している感情評定値付きオンラインゲーム音声チャットコーパスなど)またはプロのアクターを招聘して感情音声を録音する、2) 基本周波数のWavelet特徴量を用いることで基本周波数の時間変化を細かく表現する、3) モデルを多層化したり、変分オートエンコーダを利用するなど非線型変換に基づく処理を加えることを検討している。また、上記によって感情音声変換を動作確認した後、複数話者を用いた話者と感情の同時変換、複素制限ボルツマンマシンやLSTBMによる精度向上を試みる。
|
次年度使用額が生じた理由 |
概ね計上した通りに助成金を使用したが,他研究助成金により主観評価実験に掛かる経費(人件費・謝金)を賄うことができたため,人件費・謝金が削減された。この差額は翌年度以降の主観評価実験,物品購入費用として使用する予定である。
|