Project/Area Number |
23K11074
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60060:Information network-related
|
Research Institution | Kanagawa Institute of Technology |
Principal Investigator |
田中 博 神奈川工科大学, 情報学部, 教授 (00434415)
|
Co-Investigator(Kenkyū-buntansha) |
宮崎 剛 神奈川工科大学, 情報学部, 教授 (20329634)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
|
Keywords | 画像変換 / スペクトログラム / 深層ネットワーク / 雑音除去 / 音源識別 / 信号処理 / 深層学習 / スぺクトログラム |
Outline of Research at the Start |
我々が生活する環境内には様々な音が混在している。それらの音の発生源(音源)が分かることにより多くの情報が得られる。本研究では音を取得するマイクセンサは1個という条件下で二つの方向から研究を進める。一つは様々な音が混在している混同音の中からそれらの任意の音を抽出・識別するアプローチ、もう一つはその混合音に内在している各音を同時に識別する(一括識別)アプローチである。本研究では雑音も場合によっては識別対象になるという考えを立脚点とし、従来の特定の音を抽出・識別する技術という観点から、環境に含まれる任意の音を抽出・識別、一括識別する技術へと展開し、その方法論の確立を目指す。
|
Outline of Annual Research Achievements |
画像情報を用いた生活空間における混合音の理解に関する研究として、以下の観点から検討を行った。 (1)音源識別:音の画像への変換方法として、スペクトログラムに加え、メルスペクトログラム、スカログラムを追加した。そしてそれらを用いた2つの方法を考案し、家電機器の動作音などを実際に取得した14クラスの音データに対して識別実験を実施した。3つの画像をRGBの各チャネルに入力してカラー化した画像を用いて学習した識別モデルによる識別、各画像からの学習モデルから得られるそれぞれの尤度情報を用いる方法を提案し、後者による識別精度の向上を確認した。さらに、人の聴覚による主観での識別実験も行った。その結果、実験で使用した音データに対しては識別モデルによる識別性能は、主観結果よりもはるかに高い精度が得られることが分かった。
(2)雑音除去:代表的な深層学習モデルの1つであるU-Netを用いた雑音除去法について検討した。屋内外での動画収録中における偶発的な雑音混入を想定し、これら(航空機、電車やインターフォン、幼児やペットの鳴き声など)の多様な雑音源の除去性能を評価した。ここで、性能向上のためのデータ拡張手法を考案し、その効果を確認した。具体的には、変換時のパラメータ変更、学習画像作成時におけるオーバラッピングによる性能向上を検証し、特許出願・取得した。さらにU-Netから、その改良版と言えるU-Net3+の学習モデルの適用の検討に着手した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
特に問題はなく、現在まではおおむね順調に進展している。
|
Strategy for Future Research Activity |
前年度は主として、音源識別、雑音除去法に対する提案(音を画像に変換、画像処理技術の適用)の可能性の検証、その効果の検証に取り組んで一定の成果を得ることができた。画像情報をベースするという基本的な方針と原理を確保しつつ、ターゲットとして雑音除去、音源識別という2つのアプローチで進めていく。当面の方針は、性能向上と技術の適用先の開拓である。 性能向上の観点では、進展の著しい深層ネットワークの技術を積極的に取り込む。具体的には、U-NetからN-Net3+、Attention U-Netなど最新の成果を取り込んだ雑音除去の検討を進めていく。そのときに、性能のみならず、学習モデル作成に必要となる画像数、学習に要する計算時間などコストの観点での検討を行い、実用性、利便性の観点からの評価を加えていく。 音源識別に関しては雑音除去と同様、用いる学習ネットワークの更新、実用を考慮した条件を設定し、技術の完成度を高めていく。ヒトの聴覚との識別モデルによる識別性能の比較に関しては、比較手法としてより一般性が確保できるように検討する。 これらの検討の中で、提案技術の適用領域と考えられるものに対しては、積極的に関係者、関係機関と連携し技術の適用先を広く展開していく。
|