画像情報を用いた生活空間における混合音の理解に関する研究

研究課題

研究課題/領域番号	23K11074
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分60060:情報ネットワーク関連
研究機関	神奈川工科大学
研究代表者	田中博神奈川工科大学, 情報学部, 教授 (00434415)
研究分担者	宮崎剛神奈川工科大学, 情報学部, 教授 (20329634)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2023年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワード	画像変換 / スペクトログラム / 深層ネットワーク / 雑音除去 / 音源識別 / 信号処理 / 深層学習 / スぺクトログラム
研究開始時の研究の概要	我々が生活する環境内には様々な音が混在している。それらの音の発生源（音源）が分かることにより多くの情報が得られる。本研究では音を取得するマイクセンサは１個という条件下で二つの方向から研究を進める。一つは様々な音が混在している混同音の中からそれらの任意の音を抽出・識別するアプローチ、もう一つはその混合音に内在している各音を同時に識別する（一括識別）アプローチである。本研究では雑音も場合によっては識別対象になるという考えを立脚点とし、従来の特定の音を抽出・識別する技術という観点から、環境に含まれる任意の音を抽出・識別、一括識別する技術へと展開し、その方法論の確立を目指す。
研究実績の概要	画像情報を用いた生活空間における混合音の理解に関する研究として、以下の観点から検討を行った。 (1)音源識別：音の画像への変換方法として、スペクトログラムに加え、メルスペクトログラム、スカログラムを追加した。そしてそれらを用いた２つの方法を考案し、家電機器の動作音などを実際に取得した14クラスの音データに対して識別実験を実施した。3つの画像をRGBの各チャネルに入力してカラー化した画像を用いて学習した識別モデルによる識別、各画像からの学習モデルから得られるそれぞれの尤度情報を用いる方法を提案し、後者による識別精度の向上を確認した。さらに、人の聴覚による主観での識別実験も行った。その結果、実験で使用した音データに対しては識別モデルによる識別性能は、主観結果よりもはるかに高い精度が得られることが分かった。 (2)雑音除去：代表的な深層学習モデルの1つであるU-Netを用いた雑音除去法について検討した。屋内外での動画収録中における偶発的な雑音混入を想定し、これら（航空機、電車やインターフォン、幼児やペットの鳴き声など）の多様な雑音源の除去性能を評価した。ここで、性能向上のためのデータ拡張手法を考案し、その効果を確認した。具体的には、変換時のパラメータ変更、学習画像作成時におけるオーバラッピングによる性能向上を検証し、特許出願・取得した。さらにU-Netから、その改良版と言えるU-Net3+の学習モデルの適用の検討に着手した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由特に問題はなく、現在まではおおむね順調に進展している。
今後の研究の推進方策	前年度は主として、音源識別、雑音除去法に対する提案（音を画像に変換、画像処理技術の適用）の可能性の検証、その効果の検証に取り組んで一定の成果を得ることができた。画像情報をベースするという基本的な方針と原理を確保しつつ、ターゲットとして雑音除去、音源識別という２つのアプローチで進めていく。当面の方針は、性能向上と技術の適用先の開拓である。性能向上の観点では、進展の著しい深層ネットワークの技術を積極的に取り込む。具体的には、U-NetからN-Net3+、Attention U-Netなど最新の成果を取り込んだ雑音除去の検討を進めていく。そのときに、性能のみならず、学習モデル作成に必要となる画像数、学習に要する計算時間などコストの観点での検討を行い、実用性、利便性の観点からの評価を加えていく。音源識別に関しては雑音除去と同様、用いる学習ネットワークの更新、実用を考慮した条件を設定し、技術の完成度を高めていく。ヒトの聴覚との識別モデルによる識別性能の比較に関しては、比較手法としてより一般性が確保できるように検討する。これらの検討の中で、提案技術の適用領域と考えられるものに対しては、積極的に関係者、関係機関と連携し技術の適用先を広く展開していく。

報告書

(1件)

2023 実施状況報告書

研究成果
(10件)

すべて 2024 2023 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件) (うち国際学会 2件) 備考 (1件) 産業財産権 (1件)

[雑誌論文] スペクトログラム画像を用いた転移学習の適用による室内音識別2023
- 著者名/発表者名
  佐野将太，川喜田佑介，宮崎剛，田中博
- 雑誌名
  
  画像電子学会誌
  
  巻: 52 ページ: 348-356
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] Comparative Investigation of Removal Performance for Various Noises in Recorded Speech Using U-Net2024
- 著者名/発表者名
  H. Shimada, M. Ueda, Y. Kawakita, T. Miyazaki, H. Tanaka
- 学会等名
  NCSP'24, RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing 2024
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Study on Improving Accuracy of Sound Classification in a Room using Multiple Image Transformation Methods2024
- 著者名/発表者名
  N. Aihara, M. Ueda, Y. Kawakita, T. Miyazaki, H. Tanaka
- 学会等名
  NCSP'24, RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing 2024
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] DNNによる環境音の識別と官能評価2024
- 著者名/発表者名
  藍原直大, 小田桐空大, 川喜田佑介, 宮崎剛, 田中博, 上田麻理
- 学会等名
  2024年電子情報通信学会総合大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 厚木市における防災行政無線の聴き取りにくさの識別2024
- 著者名/発表者名
  藍原直大, 橋本卓己, 小川喜道, 宮崎剛, 田中博, 上田麻理
- 学会等名
  第86回情報処理学会全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 画像変換手法を用いた室内音環境識別の精度向上に関する検討2023
- 著者名/発表者名
  藍原直大，川喜田佑介，宮崎剛，田中博
- 学会等名
  2023年電子情報通信学会ソサイエティ大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 転移学習を用いた音源識別における画像変換手法とその性能比較2023
- 著者名/発表者名
  藍原直大，川喜田佑介，宮崎剛，田中博
- 学会等名
  第22回情報科学技術フォーラム（FIT2023）
- 関連する報告書
  2023 実施状況報告書
[学会発表] U-Netを用いた電車走行音雑音除去のための学習モデルの作成方法とその評価2023
- 著者名/発表者名
  島田紘武，川喜田佑介，宮崎剛，田中博
- 学会等名
  第22回情報科学技術フォーラム（FIT2023）
- 関連する報告書
  2023 実施状況報告書
[備考] 神奈川工科大学　情報学部　情報工学科　田中（博）研究室
- URL
  http://www.tnklab.ic.kanagawa-it.ac.jp/tanakalab/index.htm
- 関連する報告書
  2023 実施状況報告書
[産業財産権] 学習モデル作成手法、学習モデル作成装置、背景音除去方法、および背景音除去装置2023
- 発明者名
  田中博、宮崎剛
- 権利者名
  田中博、宮崎剛
- 産業財産権種類
  特許
- 出願年月日
  2023
- 取得年月日
  2024
- 関連する報告書
  2023 実施状況報告書

画像情報を用いた生活空間における混合音の理解に関する研究

研究代表者

田中 博 神奈川工科大学, 情報学部, 教授 (00434415)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] スペクトログラム画像を用いた転移学習の適用による室内音識別2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Comparative Investigation of Removal Performance for Various Noises in Recorded Speech Using U-Net2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Study on Improving Accuracy of Sound Classification in a Room using Multiple Image Transformation Methods2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] DNNによる環境音の識別と官能評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 厚木市における防災行政無線の聴き取りにくさの識別2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 画像変換手法を用いた室内音環境識別の精度向上に関する検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 転移学習を用いた音源識別における画像変換手法とその性能比較2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] U-Netを用いた電車走行音雑音除去のための学習モデルの作成方法とその評価2023

著者名/発表者名

学会等名

関連する報告書

[備考] 神奈川工科大学 情報学部 情報工学科 田中（博）研究室

URL

関連する報告書

[産業財産権] 学習モデル作成手法、学習モデル作成装置、背景音除去方法、および背景音除去装置2023

発明者名

権利者名

産業財産権種類

出願年月日

取得年月日

関連する報告書

田中博神奈川工科大学, 情報学部, 教授 (00434415)

[備考] 神奈川工科大学　情報学部　情報工学科　田中（博）研究室