研究課題/領域番号 |
25880028
|
研究機関 | 国立情報学研究所 |
研究代表者 |
林 浩平 国立情報学研究所, ビッグデータ数理国際研究センター, 特任助教 (30705059)
|
研究期間 (年度) |
2013-08-30 – 2015-03-31
|
キーワード | テンソル分解 / 確率勾配法 / 関係データ解析 / ソーシャルネットワーク解析 / トピックモデル |
研究実績の概要 |
多次元配列あるいはテンソルの構造を持つデータの重要性が高まっている.例えば遺伝子解析,自然言語処理,脳科学など実社会における様々な情報の高次な関係性はテンソルとして表現することができる.また隠れマルコフモデル等に代表される隠れ変数モデルの学習にもテンソルが深く関わっていることが近年知られるようになった.従来の学習アルゴリズムの代わりにテンソル分解を用いることで高速かつ一意な解を得ることができる.テンソル分解はこれらに共通して必要な基礎技術だが,近年のデータ規模の増大に対応しきれていない. 本研究ではデータの疎性に着目し,高速かつ省メモリなテンソル分解の高速アルゴリズムを開発した.具体的にはデータテンソルが何らかの確率変数の期待値として表現できるとき,それをオンラインで解くための枠組みである期待テンソル分解を提案した.この問題設定では二乗誤差のCP分解(テンソル分解の一種)を二乗ノルムの正則化付で扱うことができる.また最適化手法として擬似二次情報を使った確率勾配法を導出した.二次の項(ヘッセ行列)をフルに導出するのではなく対角項のみで近似することにより,収束スピードと計算時間の良いトレードオフを達成できた.また収束に関しても理論解析を行い,緩い仮定のもと正しい解に行くことが保障される.Amazonレビューデータを用いて性能を評価し,既存のアルゴリズムに比べ高速かつ省メモリであることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
超大規模データテンソルの高速分解アルゴリズムおよび実装は完了した.具体的にはデータテンソルが何らかの確率変数の期待値として表現できるとき,それをオンラインで解くための枠組みである期待テンソル分解を提案した.この問題設定では二乗誤差のCP分解(テンソル分解の一種)を二乗ノルムの正則化付で扱うことができる.また最適化手法として擬似二次情報を使った確率勾配法を導出した.二次の項(ヘッセ行列)をフルに導出するのではなく対角項のみで近似することにより,収束スピードと計算時間の良いトレードオフを達成できた.また収束に関しても理論解析を行い,緩い仮定のもと正しい解に行くことが保障される. このような,アルゴリズムの導出および理論的な解析は当初の計画と合致しており,順調に研究が進んだといえる.
|
今後の研究の推進方策 |
26年度が最終年度であるため記入しない.
|