2019 Fiscal Year Research-status Report
動画ビッグデータの構造適応型マルチモーダル深層学習の研究
Project/Area Number |
19K24365
|
Research Institution | Prefectural University of Hiroshima |
Principal Investigator |
鎌田 真 県立広島大学, 公私立大学の部局等(広島キャンパス), 講師 (30845178)
|
Project Period (FY) |
2019-08-30 – 2021-03-31
|
Keywords | 深層学習 / マルチモーダル / 構造適応型深層学習 / 動画ビッグデータ |
Outline of Annual Research Achievements |
本研究では,深層学習において,入力データに対して最適と考えられるネットワーク構造を学習しながら自己組織化的に求める構造適応型学習法を開発している。開発した構造適応型深層学習法は未知なデータに対して高い分類精度は示しているものの,100%の精度までには至っていない。誤分類した原因について調査したところ,モデルの過学習(過度に学習しすぎる状態)が原因ではなく,医療データや動画,感情のように,複数のモダリティから構成されるマルチモーダルなデータで,与えられたデータのみでは判別が困難な特徴が含まれていたことが原因であった。例えば,医師であれば,画像の他,患者の血液検査や問診の結果,過去の経年変化,また医師自身の経験的な知識等,複数の情報を統合的に処理し,関連付けを行い,総合的に判断した上で最終判定を行っていると考えられる。つまり,深層学習においても,人間が行うように,複数のモダリティ(5感など)を統合的に扱い,関係性を考慮した上で予測を行うマルチモーダル深層学習法が必要である。 マルチモーダル深層学習には,複数のモダリティの表現方法のRepresentation,変換方法のTranslation,関連付けのAlignment,融合方法のFusion,知識の転移のCo-learningが必要とされる。本研究では,構造適応型深層学習において,ネットワークの内部の入出力パタンに関する知識を木構造のIF-THENルールとして抽出する手法や,画像と数値が混在したデータを一度に取り扱い,分類精度を下げることなく高速に学習する構造適応型学習法を既に提案している。本研究では,これらの手法を改良し,また複数のモダリティを含む処理を統合するため,Teacher-Student(T/S)モデルの概念に基づいたCo-learningモデルを探求する。複数のモダリティ間の知識の融合モデルを研究し,医療データ,感情,動画等のオープンビッグデータに適用し評価する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2019年度ではマルチモーダル情報の表現のために,T/Sモデルを用いて,構造適応型深層学習法の改良を行った。以前の研究において,8種類の人間の感情と顔画像の組が与えられている顔感情画像データベースAffect Netに本手法を適用した際,一部の感情について誤分類が生じた。誤分類の原因は,単なる過学習ではなく,感情には主観的な情報が含まれるため,顔画像に与えられる感情ラベルがアノテーター(人)の基準によって異なることが原因であった。このため,T/Sモデルを用いて,アンサンブル学習のように,複数のアノテーターの基準や事前知識を,複数のモデルを用いて表現することを試みた。各モデル間の確率分布の違いをKL情報量で測定し,モデルを木構造とみなし,入力層から出力層に至るまでの各層のニューロンの発火パタン(パス)を分析することで,各モデルの知識を表現し,類似性や生起頻度により各モーダル間の関連性や変換を定義した。 さらに,複数のモダリティの要素の関連付けを実現し,融合することで高精度の予測モデルを構築した。具体的には,KL情報量やニューロンの発火パタンにより得られた親モデルと子モデルの違いをもとに,親モデルにおいて不足していると考えられる新たなニューロン生成を行う再学習法を提案し,分類精度の向上を試みた。再学習により,特定のカテゴリについて分類精度の改善が見られた(再学習前:78.4%,再学習後:91.3%)。 また,画像以外の多様なデータに対しても深層学習の適用が期待されていることから,Moving MNISTと呼ばれるベンチマークデータを用いて,動画ビッグデータへの適用を試みた。Moving MNISTは,一定の長さの間,2つの数字が画像内をランダムに動く動画ベンチマークで,与えられた系列から,次の数字の動きを予測する学習法を開発した。学習の結果,次の動きを90%以上の精度で予測が可能となり,既存の手法よりも高い予測性能を示した。
|
Strategy for Future Research Activity |
2020年度では,開発した手法のさらなる改良を行い,医療データ,動画等の複数のマルチモーダルデータを用いて性能を評価する。手法の改良として,2019年度では,T/Sモデルを用いた構造適応型深層学習の再学習法を開発し,ここでは特に各モダリティの知識表現や推論するための融合処理に焦点を当てたが,2020年度では,より複数のモダリティを含む処理のため,複数のモダリティ間での知識の転移法について研究する。これによって,深層学習の再学習や転移学習の精度向上が見込める。また,これまでの分析結果の中には,深層学習の出力結果を意図的に騙す敵対的事例(Adversarial Example)と考えられる事例が見つかっており,このようなデータが出現した場合でも適切に判別可能な手法について研究を行う。 性能評価として,2019年度では感情画像とMoving MNISTを用いたが,より複雑なデータとして,軽度認知症(MCI)判定のためのオープンデータであるADNIやYoutubeの動画データを用いる。ADNIには,MCI判定のためのMRI画像のほか,血液検査等の複数のデータが蓄積されている。これらの複数種類の情報を統合的に処理し,判定を行うマルチモーダル深層学習モデルを構築する。医療データには欠損値が多く含まれるが,上記の知識の転移が可能となれば,別のモダリティの関連性・共通成分から欠損値を補完することが可能となり,予測精度の向上が期待される。Youtubeの動画データに対しも同様に性能評価を行う。
|
Causes of Carryover |
新型コロナウイルスの感染拡大の影響に伴い,参加予定であった国際学会や学生アルバイト等が中止となり,旅費,参加費,謝金等の予算を執行できなかった。これらの費用については,次年度に執行する予定である。
物品については,当初はGPU計算機を購入予定であったが,次年度に最新モデルがリリースされるため,次年度に使用予定である。
|
Research Products
(9 results)