研究課題/領域番号 |
23K11177
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立研究開発法人情報通信研究機構 |
研究代表者 |
岡本 拓磨 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | マルチスポット再生 / 音場制御 / 局所再生 / スピーカアレイ / データ駆動 / 誤差逆伝播 / ニューラルネットワーク / 音声波形生成 |
研究開始時の研究の概要 |
複数のスピーカを用いて「ある位置では日本語が聞こえ,別の位置では英語が聞こえる」ような多言語音声マルチスポット再生技術の研究開発を行っている.従来法では,信号処理に基づく線形フィルタを用いる方式や,マスク信号を重畳する信号処理方式が提案されているが,目的領域外での音漏れや目的領域での音質劣化の課題がある.そこで本研究では,音声合成分野で成功を収めている深層波形生成ニューラルネッ トワーク(以下 NN)を導入し,機械学習によって各スピーカの再生信号を最適に生成する「データ駆動型音声マルチスポット再生方式」を新たに提案する.
|
研究実績の概要 |
<データ駆動型マルチスポット再生方式の提案> 従来のマルチスポット再生方式の多くはは局所再生方式をエリアごとに重ね合わせる方式であるため,同時に再生されるお互いの再生信号を考慮していない.隣り合う再生信号を考慮した方式も提案されているが,エリアが2つに限定されていた.提案法を導出するにあたり,まず最初に,ニューラルネットワークの学習で用いられている誤差逆伝播を用いた局所再生方式を提案した.これは,再生音場と目的音場の誤差を誤差逆伝播することにより各スピーカの駆動信号を更新する方式である.計算機シミュレーションにより逆行列を用いた方式と比較して再生誤差を低減できることを示した.その上で,複数の音信号をそれぞれのエリアに同時に再生した場合のマルチスポット再生にも誤差逆伝播を用いた方式を提案し,計算機シミュレーションにより逆行列を用いた方式と比較して再生誤差を低減できることを示した.本成果は日本音響学会2024年春季研究発表会にて発表し,現在ジャーナル論文執筆中である. <デモ展示> これまでに開発した16チャネル円形アレイを用いたフーリエ変換に基づくマルチスポット再生を実装し,ICASSP 2023およびWASPAA 2023にてデモ展示を行った.また,代表者が本務で研究開発している多言語同時通訳と音声マルチスポット再生を統合したデモ展示をNICTオープンハウスやCEATEC 2023等,数多くのデモ展示を行った.CEATEC 2023での4言語音声マルチスポット再生が反響を呼び,2024年1月28日,日本テレビ「博士は今日も嫉妬する 人生が楽しくなる最新テクノロジー」において「Case142 特定の場所だけ聞こえるスピーカー」としてTV地上波において全国放送された.さらに,Internoise 2023においてデモシステム紹介を含めた招待講演を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
計画通り,データ駆動型のマルチスポット再生を提案し,従来方式よりも精度よく制御できることを示せたためである.さらに,実装したデモシステムが予想を上回る好評ぶりであったことから,当初の計画以上に進展していると自己評価した.
|
今後の研究の推進方策 |
2023年度に提案した誤差逆伝播を用いたデータ駆動型マルチスポット再生方式をジャーナル論文化し,さらにデモ機材への実装を行う.その上で,人間の聴覚特性を考慮した方式やマスキングを考慮した方式への拡張を行う.
|