| Project/Area Number |
21K17809
|
| Research Category |
Grant-in-Aid for Early-Career Scientists
|
| Allocation Type | Multi-year Fund |
| Review Section |
Basic Section 61030:Intelligent informatics-related
|
| Research Institution | Hiroshima City University (2022-2024) Prefectural University of Hiroshima (2021) |
Principal Investigator |
Shin Kamada 広島市立大学, 情報科学研究科, 准教授 (30845178)
|
| Project Period (FY) |
2021-04-01 – 2025-03-31
|
| Project Status |
Completed (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
| Keywords | 深層学習 / マルチモーダル / 構造適応型学習 / ビッグデータ / 知識獲得 |
| Outline of Research at the Start |
本研究では,音声,自然言語等の複数のモダリティを並列的に処理し,モダリティ間の関係性を考慮した上で合成・融合し,最終的な出力判定を行うマルチモーダル構造適応型深層学習を探求する。複数のモデル間の確率分布の違いをKL情報量により測定し,類似性に基づいてモダリティ間の共通成分を知識獲得手法について研究する。入力に欠損値があった場合や一つのモダリティで曖昧な判定が行われた場合でも,別のモダリティがもつ知識に基づいて補間し,その他の情報と合成することで人間のような高次の情報処理を実現する。動画等のビッグデータに適用し評価する。
|
| Outline of Final Research Achievements |
We developed an adaptive structural deep learning method which automatically generates/deletes the suitable number of hidden neurons and layers for given input data. In this research, we developed a multimodal deep learning model using multiple input modalities such as video and audio to improve accuracy. For the emotion recognition dataset with video and audio, the proposed model showed higher classification accuracy than the unimodal models.
|
| Academic Significance and Societal Importance of the Research Achievements |
深層学習は,画像認識を中心として発展してきたが,近年では,テキストや音声認識等にみられるように,複数のモダリティを扱う深層学習法の開発が進んでいる。本研究のように,複数モダリティの互いの影響を質的・量的に観測した上で,適切な合成・融合・変換を行い,最終的な判定を行う仕組みを開発できれば,より性能が向上し,人工知能の研究がさらなる進化を遂げると考えられる。
|