Project/Area Number |
22K12133
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61020:Human interface and interaction-related
|
Research Institution | Takushoku University |
Principal Investigator |
林 誠治 拓殖大学, 工学部, 教授 (80218578)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 狭帯域音声の帯域拡張 / 多重解像度解析 / ウェーブレット / 音声帯強調拡張 |
Outline of Research at the Start |
本研究では,音声信号の多重解像度解析によって得られる階層型成分分離からヒントを得て,本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的とする.この音声帯域拡張技術は音声としてより人間らしさを強調するための手法である一方,低域と高域のバランスを適応的に調整することで,耳の遠くなった高齢者が聞きやすくなるような音声出力も十分提供できるものと考える.
|
Outline of Annual Research Achievements |
狭帯域から広帯域への音声帯域拡張技術は音声としての人間らしさを強調するための手法である一方,音域のバランスを適応的に調整することで高齢になると感じる「聞こえづらさ」といった軽度の難聴問題を解消できる一助になると考えられる.本応募研究では,音声信号の多重解像度解析によって得られる階層型成分で得られる情報から,本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的に研究を遂行している.これについて,これまで本研究に係る自身の先行研究によって得られた成果をベースとして,どのようにしたら推定精度を向上させることができるか,ということを念頭に研究を進めており,まず,今年度の交付金を使用して新たな研究開発環境のハードウェア(高速なパーソナルコンピュータとGPGPUを搭載したグラフィックボード)とソフトウェア(MATLAB数値解析ソフト)の構築および整備を行った.つぎに,音声帯域拡張技術の実現手法の一つとして,連続音声データベースから音素単位に分解して子音または母音ごとの発声区間を判別し,それぞれの発声区間ごとにラベリング,つまりタグ付けを行う方法で研究を進めている.今後の研究の展開になるが,前述で得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し,より高品質な広帯域音声の獲得を目指す方針である.基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで,機械学習を用いた相関係数の算出により,元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し,狭帯域の音声成分に付加することで広帯域化を図る予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
これまでの応募者の先行研究によって得られた成果をベースとして,どのようにしたら推定精度を向上させることができるか,ということを念頭に研究を進めている.従来はウェーブレット再構成フィルタを使用しているものの多重解像度解析の手法を用いた機械学習による相関係数の算出は行っていなかったため,予想される広帯域化のシステム構成や高域成分の具体的な推定方法の導出と検証の方法について調査した.また,狭帯域音声の広帯域化を実現する一つの方法として,連続音声データベースのサンプル音声データに対して,有限状態文法を用いた連続音声認識パーサJulianにより音素単位に分解して,子音または母音ごとの発声区間を判別し,それぞれの発声区間ごとにラベリング,つまりタグ付けを行う方法で研究を進めている.機械学習を用いた帯域拡張の計算や考案したアルゴリズムの検証のため,今年度の交付金を使用して新たな研究開発環境を構築するためのハードウェア(ハイスペックノートパソコンとRTX4090を搭載したGPGPUグラフィックボード)ならびにソフトウェア(MATLAB数値解析ソフト),主観テスト環境整備のための音声評価用システム(アクティブスピーカー一式)を購入した.
|
Strategy for Future Research Activity |
今後の研究の展開としては,連続音声データベースをもとに有限状態文法を用いた連続音声認識パーサJulianにより得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し,より高品質な広帯域音声の獲得を目指す方針である.基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで,機械学習を用いた相関係数の算出により,元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し,狭帯域の音声成分に付加することで広帯域化を図る予定である.
|