複数モダリティの知識表現を用いたマルチモーダル構造適応型深層学習の研究
Project/Area Number |
21K17809
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Hiroshima City University (2022) Prefectural University of Hiroshima (2021) |
Principal Investigator |
鎌田 真 広島市立大学, 情報科学研究科, 准教授 (30845178)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 深層学習 / マルチモーダル / 構造適応型学習 / 知識獲得 / ビッグデータ |
Outline of Research at the Start |
本研究では,音声,自然言語等の複数のモダリティを並列的に処理し,モダリティ間の関係性を考慮した上で合成・融合し,最終的な出力判定を行うマルチモーダル構造適応型深層学習を探求する。複数のモデル間の確率分布の違いをKL情報量により測定し,類似性に基づいてモダリティ間の共通成分を知識獲得手法について研究する。入力に欠損値があった場合や一つのモダリティで曖昧な判定が行われた場合でも,別のモダリティがもつ知識に基づいて補間し,その他の情報と合成することで人間のような高次の情報処理を実現する。動画等のビッグデータに適用し評価する。
|
Outline of Annual Research Achievements |
入力データに対して適応的に隠れニューロン数や層の数を自動で生成/消去する構造適応型深層学習法を開発した。本手法は画像や時系列データ等のベンチマークにおいて,他の深層学習手法(VGG16, ResNet等)より高い分類能力を示した。本手法は既存の手法よりも高い性能を示したものの,数は多くないが,分類困難な事例が見つかっている。これらの多くは,医療データ等に見られる曖昧性が多く含まれる事例や,単一のデータだけ判定が難しいものであった。 深層学習では,複数の異なる入力を同時に学習するマルチモーダル深層学習は提案されているが,各モダリティ間の特徴や知識表現に基づき,最終判定のために適切に合成・融合する手法は少ない。このため,本研究では,動画像,音声,自然言語等の複数のモダリティを入力とし,個別のモデルとして並列的に処理し,モダリティ間の関係性を考慮した上で合成し,最終的な出力判定を行うマルチモーダル構造適応型深層学習を探求する。特に,複数のモデル間の確率分布の違いをKL情報量により測定し,モダリティを適切に合成・融合するための指標を開発する。類似性に応じてモダリティ間の共通成分を知識として獲得し,データ表現能力が不足する場合は新規ニューロンを自動追加する。入力に欠損があった場合でも別のモダリティがもつ知識に基づいて補間し,その他の情報と合成することで人間のような高次の情報処理を実現する。動画等のビッグデータに適用し評価する。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2022年度では,マルチモーダル深層学習として,親モデルと複数の子モデルを用いたTeacher-Student構造適応型深層学習法の改良を行った。入力データに含まれる多様な特徴を親モデルと複数の子モデルで学習し,KL情報をもとに,子モデルに蓄積されている特徴や知識表現を親に転移させることで,分類性能の向上を実現した。開発したモデルを複数のデータセットに適用し,手法の評価を行った。具体的には,MRI/PET画像に適用し,認知症早期判定のための深層学習システムを開発した。また,航空写真とグラフ探索に基づき,道路網地図を自動検出するRoadTracerに適用し,既存の手法よりも高い性能を示し,論文投稿を行った(査読中)。 さらに,マルチモーダル深層学習として,多様なデータを学習可能にするため,構造適応型深層学習法におけるセグメンテーション手法を開発した。以前の研究で提案した学習済み深層学習における知識獲得手法に基づき,中間層で得られた特徴パタンから,入力画像における物体の可能性をヒートマップとして可視化し,出力する手法を開発した。公開されている肺の3次元CT画像を用いて,腫瘍領域を自動で抽出するセグメンテーションタスクに適用したところ,既存の手法より高い性能が得られた。一方,2022年度に予定していた自然言語処理の開発等,一部の実験は実施できなかった。これらの研究については,来年度に延期する。これにより,「やや遅れている」とした。
|
Strategy for Future Research Activity |
2023年度では,2022年度に実施できなかった実験を行い,提案手法の精度改善を目指す。具体的には,多様なマルチモーダル深層学習の開発のため,構造適応型深層学習における音声・自然言語処理モデルを新たに開発する。さらに,学習後のマルチモーダル深層学習から,各モダリティ間の特徴や共通成分を知識として獲得する。学習後のNNモデルはブラックボックスと言われているが,RBM及びDBNはニューロンが2値のパタンで表現されているため,入力から出力までの信号の流れを解析する。これらについて,オープンビッグデータを用いて検証する。
|
Report
(2 results)
Research Products
(9 results)