2017 Fiscal Year Annual Research Report
データベクトル間の関連を考慮した多ドメインデータの多変量解析
Project/Area Number |
16H02789
|
Research Institution | Kyoto University |
Principal Investigator |
下平 英寿 京都大学, 情報学研究科, 教授 (00290867)
|
Co-Investigator(Kenkyū-buntansha) |
清水 昌平 滋賀大学, データサイエンス学部, 准教授 (10509871)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 多変量解析 / パターン認識 / グラフ埋め込み / 漸近理論 / 自然言語処理 / 画像検索 / 分散表現 / ニューラルネットワーク |
Outline of Annual Research Achievements |
ソーシャルメディアでは画像,タグ,地理情報等の様々な種類(ドメインと呼ぶ)のデータが得られ,画像やタグは数百次元のベクトルで表される.このような多ドメインデータから情報統合する柔軟な多変量解析の方法論(Cross-Domain Matching Correlation Analysis; CDMCA)を発展させることが本研究の目的である.正準相関分析を多ドメインへ拡張する既存手法では各ドメインのサンプルサイズが同一でベクトルの対応が1対1対応のものしか扱えない.本研究の方法では各ドメインのサンプルサイズが異なり,ベクトル間の関連の強さを任意に設定できる.画像認識や自然言語処理の大規模データに取り組んで,多変量解析の方法論の発展を目指している. 本年度は次の成果が得られた.(1)自然言語処理や画像検索,および言語と画像を融合したマルチモーダル検索へCDMCAを応用して有効性を確認した.言語はwikipediaコーパス,画像とタグはソーシャルメディア(Flickr)を利用した.画像の特徴量はCNNを事前深層学習したものを用いた.(2)CDMCAの線形変換を非線形変換(ニューラルネット)におきかえる理論研究に重要な進展があった.特徴ベクトルの類似度に内積を用いていても,十分に大きなニューラルネットワークを学習させることによって非常に広いクラスの類似度が表現できることがわかった.(3)最終層を線形変換にする場合は固有値を重みにする類似度を検討した.(4)自然言語処理への応用で単語に対応する特徴ベクトル(ワードベクトルとも呼ばれる)を計算するときに,日本語など分かち書きされない言語への対応で実用的な工夫を検討した.(5)情報量規準やリサンプリングに関しても進展があった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
理論研究で大きな進展があった.自然言語処理と画像検索への応用ではおおむね想定通り.
|
Strategy for Future Research Activity |
今後も自然言語処理,画像検索などの応用をすすめて得られる知見を理論研究に生かしつつ,理論的な興味に基づいた研究も発展させる.
|
Research Products
(15 results)