多重解像度解析を用いた機械学習による音声強調および広帯域化に関する研究

研究課題

研究課題/領域番号	22K12133
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61020:ヒューマンインタフェースおよびインタラクション関連
研究機関	拓殖大学
研究代表者	林誠治拓殖大学, 工学部, 教授 (80218578)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	3,120千円 (直接経費: 2,400千円、間接経費: 720千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	狭帯域音声の帯域拡張 / 多重解像度解析 / ウェーブレット / 音声帯強調拡張
研究開始時の研究の概要	本研究では，音声信号の多重解像度解析によって得られる階層型成分分離からヒントを得て，本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的とする．この音声帯域拡張技術は音声としてより人間らしさを強調するための手法である一方，低域と高域のバランスを適応的に調整することで，耳の遠くなった高齢者が聞きやすくなるような音声出力も十分提供できるものと考える．
研究実績の概要	本研究では，音声信号のウェーブレット多重解像度解析によって得られる階層型周波数成分の情報を用いて，本来存在しない未知のサブバンド領域の成分を下位のサブバンド係数間の相関関係を用いて機械学習により推定することを目指している．具体的な処理の流れとしては，①ウェーブレット変換後のサブバンド間の相関関係を紐づける機械学習の認識モデルネットワークの作成，②学習済み認識モデルネットワークを用いた当該推定すべきサブバンド係数の生成および広帯域音声信号の生成，の二つに大きく分けることができる．①については音声フレーズを構成する最小音素に着目し，音声波形レベルで音素分解を行う．音素への分離手法は有限状態文法を用いた連続音声認識パーサJulian-kitを使用した．入手可能な連続音声データベースを用いて，大量の音素の波形データの区間抽出とともに対応する音素ラベリング（タグ付け）を行い，データを収集した．また区間フレームに対してウェーブレット変換によりウェーブレット係数（階層型周波数成分の情報）を得た．一方で，機械学習の認識モデルネットワークの構築に関しては，LSTMやAutoencoderによる推論を考えているが，なかなか成果につながる結果を得るには難しい状況である．これについて引き続き研究を継続する．②については，簡単な機械学習の出力（未知のサブバンド成分）からウェーブレット再構成により広帯域の音声信号を生成するフレーム間処理等も含めたアルゴリズムを構築した．理想的な相関係数を仮定した場合のシミュレーションでは，対応する理想的な広帯域音声信号に戻ることが確かめられた．
現在までの達成度 (区分)	現在までの達成度 (区分) 4: 遅れている理由ウェーブレット変換後のサブバンド間の相関関係を紐づける機械学習の認識モデルネットワークの作成において，連続音声認識パーサJulian-kitを使用した音素分離および音素に対応した区間フレームの取得と音素ラベリングによるデータ収集を行った．また，ウェーブレット変換によりウェーブレット係数（階層型周波数成分の情報）を得た．機械学習の認識モデルネットワークの構築に関しては，LSTMやAutoencoderによる推論など様々な手法を試みているが，なかなか成果につながる結果を得るには難しい状況である．これについて引き続き研究を継続する．
今後の研究の推進方策	基本アプローチとして，離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで，機械学習を用いた相関係数の算出により，元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し，狭帯域の音声成分に付加することで広帯域化を図るのは間違いないが，ウェーブレット再構成フィルタを使用した多重解像度解析におけるレベル間相関の算出について今一度再考し，予想される広帯域化のシステム構成や高域成分の具体的な推定方法の導出と検証の方法についてさらなる調査が必要であると思われる．

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書