研究課題/領域番号 |
21K11957
|
研究機関 | 電気通信大学 |
研究代表者 |
中鹿 亘 電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
|
研究分担者 |
矢田部 浩平 早稲田大学, 理工学術院, 講師(任期付) (20801278)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 音声信号処理 / 機械学習 / 確率・統計 / 音声符号化 / ボルツマンマシン |
研究実績の概要 |
本研究では,音声の表現に適した新しい機械学習手法として,確率的な浅層ニューラルネットである制限ボルツマンマシン(RBM)をベースに,対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する.深層学習とは異なり,RBMはコンパクトで解釈性があり,データの確率分布を陽に仮定できるため,より適切に音声を表現することができると期待される.初年度である本研究期間では,対数振幅スペクトル表現に着目し,モデル定義と実装・評価実験及び論文執筆を行なった.具体的には,可視素子として振幅スペクトルと対数振幅スペクトルを用いたRBMを定義することで,結果的に隠れ素子が与えられた時の可視素子の条件付き確率が,隠れ素子で定まる2種の分布パラメータを持つガンマ分布で表現されることを導出した.評価実験では,振幅スペクトルを従来のガウス型RBMで表現したモデルと,対数振幅スペクトルを従来のガウス型RBMで表現したモデルよりも,上記提案モデルの方が,PESQ及びSTOIに基づく客観評価基準と,自然性に関するMOS(5段階評価)に基づく主観的基準において高い精度で音声の符号化・復号化が可能であることを示した.従来研究においても,音声のスペクトルを表現する分布として正規分布よりもガンマ分布の方が適しているという報告がなされていたが,本研究では,その根拠として振幅スペクトルと対数振幅スペクトルの両方の存在確率を同時に表現しているからと考えることができるという,新しい解釈ができたという点においても意義がある.本研究成果に関して,権威のある国際論文誌であるIEEE/ACM Transactions on Audio Speech and Language Processingに1件投稿し,採択された.また本研究に関連して9件の国内会議発表,1件の特許出願を行なった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初計画では,当該年度は位相のモデル化を含めず,対数振幅スペクトル表現のみに着目したモデルの評価を実施する予定であった.実際の進捗としては,対数振幅スペクトル表現について実装・評価実験の実施と,英語論文誌への投稿・採択が完了し,更に年度後半には次年度実施予定の位相のモデル化についても一部着手することができた.したがって当初の計画以上に進展していると言える.なお,具体的な位相のモデル化について,当初は,音声のスペクトルには振幅が小さくなるほど位相が不確定になり振幅が大きくなるほど位相が確定的になるという性質があることに着目し,振幅振幅スペクトルと位相スペクトルが相関を持つような構造を持つRBMを考えていたが,隠れ素子で条件付けた可視素子の確率分布が全く新しい形となり,容易にサンプリングできないため,振幅と位相が隠れ素子を介して条件付き独立となる構造にすることで,可視素子の条件付き確率が振幅に関してガンマ分布,位相に関してフォン・ミーゼス分布となり,いずれも容易にサンプリングでき,学習可能なモデルを考案中である.
|
今後の研究の推進方策 |
次年度(令和4年度)は,引き続きRBMを用いた音声の位相スペクトルのモデル化について進めていく方針である.進捗状況の項でも述べたが,具体的な位相を考慮したモデルについては,振幅スペクトルと対数振幅スペクトルと位相スペクトルを連結した可視素子たちと,隠れ素子たちを繋ぐことで,隠れ素子が与えられたときの可視素子の条件付き確率が振幅スペクトルについてはガンマ分布,位相スペクトルについてはフォン・ミーゼス分布となるようなモデルを検討している.このモデルで実装し,簡単に評価してみたところ,非常に高い精度で音声の符号化が可能であることが判明したため,隠れ素子数や使用するデータセットなど各種条件を変え,モデルの性能について詳細に調査する予定である.実験結果がまとめられ次第,国際会議または英語論文誌に投稿する.その後,可能であれば音声合成や声質変換,音源分離など,モデルの応用についても検討していきたい.
|
次年度使用額が生じた理由 |
独立基盤形成支援を受け,予算に少し余剰ができた.次年度では,複素数のモデル化に伴い更なる計算量の増加や実験の追加が予想されるため,GPGPUの追加購入や,実験協力補助金などに使用する予定である.
|