研究課題/領域番号 |
16H02789
|
研究機関 | 大阪大学 |
研究代表者 |
下平 英寿 大阪大学, 基礎工学研究科, 教授 (00290867)
|
研究分担者 |
清水 昌平 滋賀大学, データサイエンス教育研究センター, 准教授 (10509871)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 多変量解析 / パターン認識 / 次元削減 / グラフ埋め込み / 漸近理論 / 自然言語処理 / 画像検索 / 分散表現 |
研究実績の概要 |
ソーシャルメディアでは画像,タグ,地理情報等の様々な種類(ドメインと呼ぶ)のデータが得られ,画像やタグは数百次元のベクトルで表される.このような多ドメインデータから情報統合する柔軟な多変量解析の方法論(Cross-Domain Matching Correlation Analysis; CDMCA)を発展させることが本研究の目的である.正準相関分析を多ドメインへ拡張する既存手法では各ドメインのサンプルサイズが同一でベクトルの対応が1対1対応のものしか扱えない.本研究の方法では各ドメインのサンプルサイズが異なり,ベクトル間の関連の強さを任意に設定できる.画像認識や自然言語処理の大規模データに取り組んで,多変量解析の方法論の発展を目指している. 本年度は次の成果が得られた. (1)自然言語処理へCDMCAを応用して,その有効性を確認した.従来研究では正準相関分析(CCA)を用いて1言語の単語ベクトルを計算していたが,本研究では中規模の多言語コーパスにおいて複数言語で翻訳された文書から各言語の各単語ベクトルを計算したところ,単語翻訳タスクで高い性能を示した. (2)画像投稿サイトFlickrの画像データとそのタグへCDMCAを応用して,画像とタグの相互検索でその有効性を確認した.画像とタグは共通空間のベクトルとして表現されるので,クエリ画像に近いタグを探すだけでなく,逆にタグに近い画像を探すことによって相互検索を行う.従来法に比べて一定の改善を確認した. (3)CDMCAの方法論を発展させる研究について,予備的な結果が得られた.とくに,L1正則化,ロバスト化,深層学習による非線形化などの拡張をおこなった.推定量の一致性や2乗ロスを尤度に置き換えるアプローチの考察,モデル選択や因果推測との関係について検討をおこなった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度はおおむね当初計画どおり成果がでている.とくに自然言語処理と画像検索への応用では当初の期待を超える成果が得られている.理論研究,方法論を発展させる研究は,検討を行い,予備的結果が得られている.
|
今後の研究の推進方策 |
今後は自然言語処理,画像検索などの応用をさらに進める.このような応用分野における知見が,統計的方法論のさらなる発展につながるように,検討をおこなう.一方で理論研究については,応用からの刺激をうけて検討を行う他に,それ自体の興味に基づいた研究も行う.
|