研究課題
ソーシャルメディアでは画像,タグ,地理情報等の様々な種類(ドメインと呼ぶ)のデータが得られ,画像やタグは数百次元のベクトルで表される.このような多ドメインデータから情報統合する柔軟な多変量解析の方法論(Cross-Domain Matching Correlation Analysis; CDMCA)を発展させることが本研究の目的である.正準相関分析を多ドメインへ拡張する既存手法では各ドメインのサンプルサイズが同一でベクトルの対応が1対1対応のものしか扱えない.本研究の方法では各ドメインのサンプルサイズが異なり,ベクトル間の関連の強さを任意に設定できる.画像認識や自然言語処理の大規模データに取り組んで,多変量解析の方法論の発展を目指している.本年度は次の成果が得られた.(1)昨年度にCDMCAの線形変換を非線形変換(ニューラルネット)におきかえる理論研究の見通しがあったが,さらなる数値実験により性能を確認することができた.重み係数に負の値を許す重み付き内積を用いた類似度関数が広いクラスの類似度を近似でき,関連性データからの学習も安定している.(2)関連性データからの表現学習において得られる分散表現について,加法構成性などの性質を一般化するための枠組みについて見通しが得られた.自然言語処理における単語埋め込みを例題として数値実験を行い,一般化した加法構成性の性質を確認した.(3)グラフ埋め込みを一般化するハイパーグラフ埋め込みの統計的性質を調べた.(4)単語分割を事前に行わずすべてのn-gramの埋め込みを行う手法を発展させて,n-gramの構成要素の分散表現を用いるモデリングにより性能向上が確認できた.(5)画像検索に関連してk近傍法を改良する着想と予備的な結果を得た.(6)ネットワーク成長の統計モデルやリサンプリングによる選択的推測についても進展があった.
令和元年度が最終年度であるため、記入しない。
すべて 2020 2019
すべて 雑誌論文 (5件) (うち査読あり 5件、 オープンアクセス 3件) 学会発表 (8件) (うち国際学会 3件、 招待講演 2件)
Journal of Statistical Software
巻: 92 ページ: -
10.18637/jss.v092.i03
Neural Networks
巻: 126 ページ: 362 - 383
10.1016/j.neunet.2020.03.026
Journal of Informetrics
巻: - ページ: -
Proceedings of 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT)
巻: - ページ: 3207-3215
10.18653/v1/N19-1324
Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, IJCAI-19
巻: - ページ: 5031-5038
10.24963/ijcai.2019/699