2023 Fiscal Year Research-status Report
多重解像度解析を用いた機械学習による音声強調および広帯域化に関する研究
Project/Area Number |
22K12133
|
Research Institution | Takushoku University |
Principal Investigator |
林 誠治 拓殖大学, 工学部, 教授 (80218578)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 狭帯域音声の帯域拡張 / 多重解像度解析 / ウェーブレット |
Outline of Annual Research Achievements |
本研究では,音声信号のウェーブレット多重解像度解析によって得られる階層型周波数成分の情報を用いて,本来存在しない未知のサブバンド領域の成分を下位のサブバンド係数間の相関関係を用いて機械学習により推定することを目指している.具体的な処理の流れとしては,①ウェーブレット変換後のサブバンド間の相関関係を紐づける機械学習の認識モデルネットワークの作成,②学習済み認識モデルネットワークを用いた当該推定すべきサブバンド係数の生成および広帯域音声信号の生成,の二つに大きく分けることができる.①については音声フレーズを構成する最小音素に着目し,音声波形レベルで音素分解を行う.音素への分離手法は有限状態文法を用いた連続音声認識パーサJulian-kitを使用した.入手可能な連続音声データベースを用いて,大量の音素の波形データの区間抽出とともに対応する音素ラベリング(タグ付け)を行い,データを収集した.また区間フレームに対してウェーブレット変換によりウェーブレット係数(階層型周波数成分の情報)を得た.一方で,機械学習の認識モデルネットワークの構築に関しては,LSTMやAutoencoderによる推論を考えているが,なかなか成果につながる結果を得るには難しい状況である.これについて引き続き研究を継続する.②については,簡単な機械学習の出力(未知のサブバンド成分)からウェーブレット再構成により広帯域の音声信号を生成するフレーム間処理等も含めたアルゴリズムを構築した.理想的な相関係数を仮定した場合のシミュレーションでは,対応する理想的な広帯域音声信号に戻ることが確かめられた.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
ウェーブレット変換後のサブバンド間の相関関係を紐づける機械学習の認識モデルネットワークの作成において,連続音声認識パーサJulian-kitを使用した音素分離および音素に対応した区間フレームの取得と音素ラベリングによるデータ収集を行った.また,ウェーブレット変換によりウェーブレット係数(階層型周波数成分の情報)を得た.機械学習の認識モデルネットワークの構築に関しては,LSTMやAutoencoderによる推論など様々な手法を試みているが,なかなか成果につながる結果を得るには難しい状況である.これについて引き続き研究を継続する.
|
Strategy for Future Research Activity |
基本アプローチとして,離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで,機械学習を用いた相関係数の算出により,元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し,狭帯域の音声成分に付加することで広帯域化を図るのは間違いないが,ウェーブレット再構成フィルタを使用した多重解像度解析におけるレベル間相関の算出について今一度再考し,予想される広帯域化のシステム構成や高域成分の具体的な推定方法の導出と検証の方法についてさらなる調査が必要であると思われる.
|
Causes of Carryover |
次年度使用額は16,016円となっており,これは管財課で依頼した物品購入見積との間で生じた金額であり,支払い請求額600,000円の3%未満に相当する.今後の助成金の使用計画としては,評価実験のための検証システムとして,必要に応じて多少のパソコン周辺装置の性能向上を図る予定であり,またある程度の研究成果が纏まり次第,国内外の学会への発表投稿を考えている.
|