深層生成ニューラルネットに基づくデータ駆動型音声マルチスポット再生技術の開発

研究課題

研究課題/領域番号	23K11177
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	国立研究開発法人情報通信研究機構
研究代表者	岡本拓磨国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	マルチスポット再生 / 音場制御 / 局所再生 / スピーカアレイ / データ駆動 / 誤差逆伝播 / ニューラルネットワーク / 音声波形生成
研究開始時の研究の概要	複数のスピーカを用いて「ある位置では日本語が聞こえ，別の位置では英語が聞こえる」ような多言語音声マルチスポット再生技術の研究開発を行っている．従来法では，信号処理に基づく線形フィルタを用いる方式や，マスク信号を重畳する信号処理方式が提案されているが，目的領域外での音漏れや目的領域での音質劣化の課題がある．そこで本研究では，音声合成分野で成功を収めている深層波形生成ニューラルネットワーク(以下 NN)を導入し，機械学習によって各スピーカの再生信号を最適に生成する「データ駆動型音声マルチスポット再生方式」を新たに提案する．
研究実績の概要	＜データ駆動型マルチスポット再生方式の提案＞従来のマルチスポット再生方式の多くはは局所再生方式をエリアごとに重ね合わせる方式であるため，同時に再生されるお互いの再生信号を考慮していない．隣り合う再生信号を考慮した方式も提案されているが，エリアが2つに限定されていた．提案法を導出するにあたり，まず最初に，ニューラルネットワークの学習で用いられている誤差逆伝播を用いた局所再生方式を提案した．これは，再生音場と目的音場の誤差を誤差逆伝播することにより各スピーカの駆動信号を更新する方式である．計算機シミュレーションにより逆行列を用いた方式と比較して再生誤差を低減できることを示した．その上で，複数の音信号をそれぞれのエリアに同時に再生した場合のマルチスポット再生にも誤差逆伝播を用いた方式を提案し，計算機シミュレーションにより逆行列を用いた方式と比較して再生誤差を低減できることを示した．本成果は日本音響学会2024年春季研究発表会にて発表し，現在ジャーナル論文執筆中である．＜デモ展示＞これまでに開発した16チャネル円形アレイを用いたフーリエ変換に基づくマルチスポット再生を実装し，ICASSP 2023およびWASPAA 2023にてデモ展示を行った．また，代表者が本務で研究開発している多言語同時通訳と音声マルチスポット再生を統合したデモ展示をNICTオープンハウスやCEATEC 2023等，数多くのデモ展示を行った．CEATEC 2023での4言語音声マルチスポット再生が反響を呼び，2024年1月28日，日本テレビ「博士は今日も嫉妬する人生が楽しくなる最新テクノロジー」において「Case142 特定の場所だけ聞こえるスピーカー」としてTV地上波において全国放送された．さらに，Internoise 2023においてデモシステム紹介を含めた招待講演を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由計画通り，データ駆動型のマルチスポット再生を提案し，従来方式よりも精度よく制御できることを示せたためである．さらに，実装したデモシステムが予想を上回る好評ぶりであったことから，当初の計画以上に進展していると自己評価した．
今後の研究の推進方策	2023年度に提案した誤差逆伝播を用いたデータ駆動型マルチスポット再生方式をジャーナル論文化し，さらにデモ機材への実装を行う．その上で，人間の聴覚特性を考慮した方式やマスキングを考慮した方式への拡張を行う．

報告書

(1件)

2023 実施状況報告書

研究成果
(10件)

すべて 2024 2023 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち国際学会 2件) 備考 (4件) 産業財産権 (1件)

[雑誌論文] Multilingual sound sopt synthesis systems2023
- 著者名/発表者名
  Takuma Okamoto
- 雑誌名
  
  INTER-NOISE and NOISE-CON Congress and Conference Proceedings
  
  巻: 268 号: 3 ページ: 5861-5865
- DOI
  10.3397/in_2023_0842
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] 再生信号適応型マルチスポット再生の最適化に関する検討2024
- 著者名/発表者名
  岡本拓磨
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Portable multilingual sound spot synthesis system with a compact circular array of 16 loudspeakers2023
- 著者名/発表者名
  Takuma Okamoto, Katsushi Ueno, Tsukasa Okabe, Kentaro Tani, Yasuhiko Yoshikata, Miyuki Sudo, Manae Kuwahara, Keita Hikita
- 学会等名
  ICASSP 2023
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Improving portable multiple sound spot synthesis system with a baffled circular array of 16 loudspeakers2023
- 著者名/発表者名
  Takuma Okamoto, Katsushi Ueno, Tsukasa Okabe, Kentaro Tani, Yasuhiko Yoshikata, Miyuki Sudo, Manae Kuwahara, Keita Hikita
- 学会等名
  WASPAA 2023
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 16チャネル円形スピーカアレイを用いたポータブルマルチスポット再生システムの改良2023
- 著者名/発表者名
  岡本拓磨，上野克司，岡部司，谷健太郎，芳潟靖彦，須藤美優希，桑原万苗，疋田啓太
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実施状況報告書
[備考] 音声マルチスポット再生技術
- URL
  https://ast-astrec.nict.go.jp/MultipleSoundSpotSynthesis/
- 関連する報告書
  2023 実施状況報告書
[備考] Multiple sound spot synthesis technology
- URL
  https://ast-astrec.nict.go.jp/en/MultipleSoundSpotSynthesis/
- 関連する報告書
  2023 実施状況報告書
[備考] 岡本拓磨 | PEOPLE | 情報通信研究機構 (NICT)
- URL
  https://www2.nict.go.jp/employment/researcher/okamoto-takuma.html
- 関連する報告書
  2023 実施状況報告書
[備考] OKAMOTO Takuma | PEOPLE | NICT
- URL
  https://www2.nict.go.jp/employment/researcher/en/okamoto-takuma.html
- 関連する報告書
  2023 実施状況報告書
[産業財産権] 音場制御装置，音場制御方法およびプログラム2024
- 発明者名
  岡本拓磨，内元清貴
- 権利者名
  岡本拓磨，内元清貴
- 産業財産権種類
  特許
- 産業財産権番号
  2024-021120
- 出願年月日
  2024
- 関連する報告書
  2023 実施状況報告書

深層生成ニューラルネットに基づくデータ駆動型音声マルチスポット再生技術の開発

研究代表者

岡本 拓磨 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)

4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Multilingual sound sopt synthesis systems2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 再生信号適応型マルチスポット再生の最適化に関する検討2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Portable multilingual sound spot synthesis system with a compact circular array of 16 loudspeakers2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Improving portable multiple sound spot synthesis system with a baffled circular array of 16 loudspeakers2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 16チャネル円形スピーカアレイを用いたポータブルマルチスポット再生システムの改良2023

著者名/発表者名

学会等名

関連する報告書

[備考] 音声マルチスポット再生技術

URL

関連する報告書

[備考] Multiple sound spot synthesis technology

URL

関連する報告書

[備考] 岡本拓磨 | PEOPLE | 情報通信研究機構 (NICT)

URL

関連する報告書

[備考] OKAMOTO Takuma | PEOPLE | NICT

URL

関連する報告書

[産業財産権] 音場制御装置，音場制御方法およびプログラム2024

発明者名

権利者名

産業財産権種類

産業財産権番号

出願年月日

関連する報告書

岡本拓磨国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 主任研究員 (10551567)