多重解像度解析を用いた機械学習による音声強調および広帯域化に関する研究

Research Project

Project/Area Number	22K12133
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61020:Human interface and interaction-related
Research Institution	Takushoku University
Principal Investigator	林誠治拓殖大学, 工学部, 教授 (80218578)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000) Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywords	狭帯域音声の帯域拡張 / 多重解像度解析 / ウェーブレット / 音声帯強調拡張
Outline of Research at the Start	本研究では，音声信号の多重解像度解析によって得られる階層型成分分離からヒントを得て，本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的とする．この音声帯域拡張技術は音声としてより人間らしさを強調するための手法である一方，低域と高域のバランスを適応的に調整することで，耳の遠くなった高齢者が聞きやすくなるような音声出力も十分提供できるものと考える．
Outline of Annual Research Achievements	本研究では，音声信号のウェーブレット多重解像度解析によって得られる階層型周波数成分の情報を用いて，本来存在しない未知のサブバンド領域の成分を下位のサブバンド係数間の相関関係を用いて機械学習により推定することを目指している．具体的な処理の流れとしては，①ウェーブレット変換後のサブバンド間の相関関係を紐づける機械学習の認識モデルネットワークの作成，②学習済み認識モデルネットワークを用いた当該推定すべきサブバンド係数の生成および広帯域音声信号の生成，の二つに大きく分けることができる．①については音声フレーズを構成する最小音素に着目し，音声波形レベルで音素分解を行う．音素への分離手法は有限状態文法を用いた連続音声認識パーサJulian-kitを使用した．入手可能な連続音声データベースを用いて，大量の音素の波形データの区間抽出とともに対応する音素ラベリング（タグ付け）を行い，データを収集した．また区間フレームに対してウェーブレット変換によりウェーブレット係数（階層型周波数成分の情報）を得た．一方で，機械学習の認識モデルネットワークの構築に関しては，LSTMやAutoencoderによる推論を考えているが，なかなか成果につながる結果を得るには難しい状況である．これについて引き続き研究を継続する．②については，簡単な機械学習の出力（未知のサブバンド成分）からウェーブレット再構成により広帯域の音声信号を生成するフレーム間処理等も含めたアルゴリズムを構築した．理想的な相関係数を仮定した場合のシミュレーションでは，対応する理想的な広帯域音声信号に戻ることが確かめられた．
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason ウェーブレット変換後のサブバンド間の相関関係を紐づける機械学習の認識モデルネットワークの作成において，連続音声認識パーサJulian-kitを使用した音素分離および音素に対応した区間フレームの取得と音素ラベリングによるデータ収集を行った．また，ウェーブレット変換によりウェーブレット係数（階層型周波数成分の情報）を得た．機械学習の認識モデルネットワークの構築に関しては，LSTMやAutoencoderによる推論など様々な手法を試みているが，なかなか成果につながる結果を得るには難しい状況である．これについて引き続き研究を継続する．
Strategy for Future Research Activity	基本アプローチとして，離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで，機械学習を用いた相関係数の算出により，元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し，狭帯域の音声成分に付加することで広帯域化を図るのは間違いないが，ウェーブレット再構成フィルタを使用した多重解像度解析におけるレベル間相関の算出について今一度再考し，予想される広帯域化のシステム構成や高域成分の具体的な推定方法の導出と検証の方法についてさらなる調査が必要であると思われる．

Report

(2 results)

2023 Research-status Report
2022 Research-status Report