データ駆動型のマルチモーダルデータ検索エンジンにおいて,意味の曖昧性を表現するため,確率分布関数を用いた埋め込みを開発した.あるエンティティの意味が曖昧であるとは,複数の解釈ができるため広がりが大きく,逆に特定のエンティティとは正確にマッチングしない.確率分布で言えば分散が広いことに相当し,他の分布との擬距離が大きくなる.このような性質を埋め込みに与えることで,データ駆動による学習中に自動的に曖昧なエンティティの埋め込みの分散が大きくなり,いわば不要なエンティティを捨てるような機能が得られる.これによって,マルチモーダルデータ検索の信頼性を評価したり,検索に悪影響を与える不必要なデータの検出が可能となり,成果を雑誌論文としてまとめた.また画像がもつ意味が連続的に変化するような軌跡を同定する手法,データの曖昧さを用いて異常を検知する手法等を開発し国際会議に採録された. 検索クエリを構文解析して得られた句構造木が表す単語・句を段階的にフレーム中の領域と対応づける手法を開発した.具体的には,句構造木の葉ノードが表す単語から始めて,下位のノードの単語(もしくは句)と領域との対応づけの結果を,上位のノードの句と領域の対応づけに伝播させていく.さらに,領域の視覚特徴を抽出するために,これまではBottom-up attentionというモデルを用いていたが,大幅に大規模なデータで学習され,かつより高度なネットワーク構造をもつVinVLというモデルに変更して検索精度を大幅に改善した.そして,世界的な映像検索コンテストTRECVID 2022に参加し,全7研究機関中,第4位の検索精度を達成した.また,本研究で開発したテキスト(単語・句)と画像(領域)という異種データを対応づける手法を,感情と音楽の対応づけ,時系列データの異なる時点での値の対応づけに応用した研究を国際ジャーナルで発表した.
|