研究課題/領域番号 |
22K12133
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61020:ヒューマンインタフェースおよびインタラクション関連
|
研究機関 | 拓殖大学 |
研究代表者 |
林 誠治 拓殖大学, 工学部, 教授 (80218578)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 狭帯域音声の帯域拡張 / 多重解像度解析 / ウェーブレット / 音声帯強調拡張 |
研究開始時の研究の概要 |
本研究では,音声信号の多重解像度解析によって得られる階層型成分分離からヒントを得て,本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的とする.この音声帯域拡張技術は音声としてより人間らしさを強調するための手法である一方,低域と高域のバランスを適応的に調整することで,耳の遠くなった高齢者が聞きやすくなるような音声出力も十分提供できるものと考える.
|
研究実績の概要 |
狭帯域から広帯域への音声帯域拡張技術は音声としての人間らしさを強調するための手法である一方,音域のバランスを適応的に調整することで高齢になると感じる「聞こえづらさ」といった軽度の難聴問題を解消できる一助になると考えられる.本応募研究では,音声信号の多重解像度解析によって得られる階層型成分で得られる情報から,本来存在しない未知のサブバンド成分をサブバンド間の相関関係を用いて機械学習により推定することを目的に研究を遂行している.これについて,これまで本研究に係る自身の先行研究によって得られた成果をベースとして,どのようにしたら推定精度を向上させることができるか,ということを念頭に研究を進めており,まず,今年度の交付金を使用して新たな研究開発環境のハードウェア(高速なパーソナルコンピュータとGPGPUを搭載したグラフィックボード)とソフトウェア(MATLAB数値解析ソフト)の構築および整備を行った.つぎに,音声帯域拡張技術の実現手法の一つとして,連続音声データベースから音素単位に分解して子音または母音ごとの発声区間を判別し,それぞれの発声区間ごとにラベリング,つまりタグ付けを行う方法で研究を進めている.今後の研究の展開になるが,前述で得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し,より高品質な広帯域音声の獲得を目指す方針である.基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで,機械学習を用いた相関係数の算出により,元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し,狭帯域の音声成分に付加することで広帯域化を図る予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
これまでの応募者の先行研究によって得られた成果をベースとして,どのようにしたら推定精度を向上させることができるか,ということを念頭に研究を進めている.従来はウェーブレット再構成フィルタを使用しているものの多重解像度解析の手法を用いた機械学習による相関係数の算出は行っていなかったため,予想される広帯域化のシステム構成や高域成分の具体的な推定方法の導出と検証の方法について調査した.また,狭帯域音声の広帯域化を実現する一つの方法として,連続音声データベースのサンプル音声データに対して,有限状態文法を用いた連続音声認識パーサJulianにより音素単位に分解して,子音または母音ごとの発声区間を判別し,それぞれの発声区間ごとにラベリング,つまりタグ付けを行う方法で研究を進めている.機械学習を用いた帯域拡張の計算や考案したアルゴリズムの検証のため,今年度の交付金を使用して新たな研究開発環境を構築するためのハードウェア(ハイスペックノートパソコンとRTX4090を搭載したGPGPUグラフィックボード)ならびにソフトウェア(MATLAB数値解析ソフト),主観テスト環境整備のための音声評価用システム(アクティブスピーカー一式)を購入した.
|
今後の研究の推進方策 |
今後の研究の展開としては,連続音声データベースをもとに有限状態文法を用いた連続音声認識パーサJulianにより得られた音素クラスタごとに多重解像度解析を用いた未知成分の推定パラメータを定義・決定し,より高品質な広帯域音声の獲得を目指す方針である.基本アプローチとしては離散ウェーブレット解析(DWT)を用いてDWT分解後のレベル間の相関を利用することで,機械学習を用いた相関係数の算出により,元来人間の肉声が持っていた高域成分および低域成分を疑似的に生成し,狭帯域の音声成分に付加することで広帯域化を図る予定である.
|