2015 Fiscal Year Research-status Report
スピングラス理論に基づいた学習・推定・逆問題の総合的研究
Project/Area Number |
26870185
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小渕 智之 東京工業大学, 総合理工学研究科(研究院), 助教 (40588448)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 逆問題 / 機械学習 / スパースモデリング / 統計物理学 / ニューラルネットワーク |
Outline of Annual Research Achievements |
平成27年度は、解の「疎性」を用いた学習・逆問題の解法における問題に、特に注力した。 まずこの問題における理論解析を行い、与えられたデータの疎な「真の」表現を、解が疎であるという仮定を積極的に利用することにより、どれくらい正確に再現できるかという問に対して定量的な解を与えた。この解析は、L0正則化と呼ばれる、計算コストはかかるが、疎性を用いた手法として最も正確な解を与える方式を扱っているので、疎性を用いた情報処理の原理的限界を与えている。それとは別に、求解の際にL1正則化を用いることで、求解にかかるコストを低減する簡便法がよく行われているが、これに対しても理論解析を行い定量的な情報を得た。 L1正則化を用いる際に、解の疎性度合いを制御するパラメータを決定する手法に関しても研究を行った。これには汎化誤差と呼ばれる量を用いる交差検証法を用いた。汎化誤差の定量的解析を行い、この量がパラメータに対してどのような依存性を示すかを明らかにした。計算コストのかかる汎化誤差を簡便に近似する手法・アルゴリズムを開発し、それを人工データと天文学の実データの双方に適用し、その近似が実に正確で、かつ計算時間が10分の1以下に短縮されることを実演した。 L0正則化を実行する際には、どのように近似アルゴリズムを組むかが大きな問題と成る。これに対し、統計力学的な定式化を行い系を記述する確率分布を与え、モンテカルロ法をベースにした最適化問題の求解アルゴリズムであるシミュレーテッドアニーリング(SA)を適用することにより、精度の良い求解がかなり高速で可能であることを、上述の理論解析との対応を見せることで示した。 また計算量はかかるが、SAを上述の交差検証法に用いることで、L0の場合にも適切なパラメータ決定ができることも人工データ・天文の実データの双方で実演した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成27年度は、平成26年度の成果に基づき、アルゴリズムの開発を行うことであった。その視点の元で本年度の研究成果について述べる。 昨年度中から、解の疎性という新たなキーワードに着目し、その方向性における研究が大幅に進展した。それにより新たな視点からアルゴリズムを2つ組むことができた。一つ目は交差検証法のための汎化誤差の近似アルゴリズム、二つ目はL0正則化のためのモンテカルロ法ベースの手法である。これは研究計画提出時に想定していたアルゴリズムとは出自が異なるが、同じ問題に適用することができ、かつ、精度としては、より良いものになるのではないかと期待される。 本研究では通常のアルゴリズム開発とは違う強みを一点主張することができる。それは理論解析との対応が取れ、単にベンチマーク用のデータに適用して性能を見せる以上の強い主張ができることである。以上の点から、アルゴリズム開発という方向性における達成度は100%以上と考えている。 ただ、学習・逆問題という大枠は変わっていないものの、研究方向性が計画書提出時から少しずれてきている点がやや気になっている。フランスグループとの共同研究は続いており、いくつかのプロジェクトが進行中であるが、現在成果は出ていない。また昨年度終了時の今後の方策に述べた新しい課題である、層状に並べたニューラルネットワーク(ディープネットワーク)の解析にも着手できていない。以上を総合し、全体としては80%程度の達成率と考える。
|
Strategy for Future Research Activity |
平成28年度は開発したアルゴリズムを実データに適用していくことを考える。既にNMR、物性のスペクトルデータ、ニューロンの発火データを協力研究者からもらっている。このうちニューロンのデータはフランスグループからの提供である。現在これらのデータの解析を行っているが、アルゴリズムをそれらのデータを取り扱うために、特化・最適化する必要性に迫られている。平成28年度はこの点に集中する。 より具体的に述べる。問題は常に計算コストである。いずれのデータも大自由度なものになっており、L0正則化のアイデアに忠実な総当り的やり方は全く上手くいかない。L1正則化も試したが、あまりうまくいっていない。したがってL0正則化の範囲で、上手く問題を解く近似的手法を考えねばならない。上で述べたシミュレーテッドアニーリングは一つの選択肢ではあるのだが、いろいろ調べると汎化誤差を最小にするのは、絶対零度ではなく有限温度の領域であることが明らかとなってきた。そこでは最適化問題を解くのではなくてサンプリングを行わなければならない。モンテカルロ法は、原理的にはこの問題を解くことができるのだが、計算コストが、総当りよりははるかに低いものの、やはり大きくなってしまう。また、昨年度終了時に述べた信念伝搬法に基づく手法は、収束性に問題が出ることが多く、本問題ではあまり有望ではないということも27年度中の研究から明らかとなっている。以上が現状認識である。 これらを克服するため、現在、統計物理学の平均場近似に基づく手法を開発・適用している。これは有限温度の問題を低コストで解くことに適している。既に定式化は完成しラフなアルゴリズムの開発も終えている。これをより簡便なものに磨いていき、上述のデータに適用していくことが、平成28年度の課題である。
|