研究課題/領域番号 |
11J04665
|
研究機関 | 東京工業大学 |
研究代表者 |
坂田 綾香 東京工業大学, 大学院・総合理工学研究科, 特別研究員(PD)
|
キーワード | Dictionary Learning / Sample complexity / レプリカ法 |
研究概要 |
本年度は昨年度に引き続き、Dictionary Leamingと呼ばれる問題についての研究を行った。Dictionary Leamingとは、与えられたデータをスパースに表現する基底(dictionary)を学習することである。Dictionary Leamingにおいては、学習に用いるテストデータの数Pが重要なパラメータになっている。テストデータが十分与えられることで、dictionaryを特定するために必要な条件式が得られれば、dictionaryは一意に決まることが予想される。Aharon et al.(2006)では、必要なテストデータの数Pcはデータサイズの指数関数的に増えるとされている。しかしこれは数学的に証明できる場合を扱ったものであり、精度の良い見積もりとは言い難く、また実用的な応用においてあまり意味を持つものではない。 昨年度の研究では、先行研究で用いられていた辞書学習法を用いた際に、dictionaryの特定に必要なPcを統計力学的な解析により見積もった[Sakata and Kabashima, arXiv:1203.6178]。Pcは辞書学習法に依存する。そこで本年度は、最良の辞書学習法を用いた際のPcを見積もった。このPcは、あらゆる辞書学習法の下で導出されるPcの下界を与える。統計力学的な解析を行い、最良の学習法を用いた場合のDictionary Leamingの熱力学的性質を明らかにした。その結果、Pc~O(N)のテストデータを用いて学習が成功するパラメータ領域が存在することがわかった[Sakataand Kabashima, arXiv:1301.6199]。 Dictionary Learningは様々な計算的な困難さのため、これまで有効なアルゴリズムの開発が行われてこなかった。本年度の研究で用いた統計力学的手法との対応関係から、belief propagationと呼ばれるアルゴリズムを用いることで、計算量の低い方法で実装が可能になるのではないかと期待される。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画どおり、今年度はDictionary Learningにおけるアルゴリズム開発の基盤となる理論を構成した。本年度の研究結果は既に論文としてまとめ、IEEEに投稿中である。プレプリントはarXiv:1301.6199に掲載されている。また複数の学会、研究会において、本研究に関する講演を行った。
|
今後の研究の推進方策 |
これまでの2年間の研究結果を踏まえ、来年度は実際のデータに対してDictionary Learningを適用することを考える。Dictionary Learningは、大規模データが従う法則を抽出する方法であるとも言える。実験技術の向上などにより、工学や生物の分野においては大規模なデータを獲得することが出来るようになっている。その背後に存在する物理法則を抽出するという目的に対して、Dictionary Learningは有効であると考える。まずはDictionary Learningのアルゴリズムを開発し、様々な分野の研究者と協力しながら、Dictionary Learningを応用させることを目指す。
|