研究課題/領域番号 |
24700139
|
研究機関 | 東京工業大学 |
研究代表者 |
山崎 啓介 東京工業大学, 総合理工学研究科(研究院), 助教 (60376936)
|
キーワード | 機械学習 / 漸近解析 / クラスタリング / 誤差の近似計算 |
研究概要 |
潜在変数推定の漸近理論の結果を用いて、推定誤差をデータから近似計算するためのアルゴリズムを考案した。真の分布に比べ冗長性が生じている場合には近似計算の結果がデータの統計的な揺らぎに大きく影響され、安定した値を得ることが難しいことが分かった。そこで潜在変数の一部が観測可能な「半教師あり学習」の設定における漸近的誤差を導出し、その結果から近似計算を行う方法を考案した。モデルが有するクラスターの数が5つで実際のクラスター数が3つの場合では、良好なクラスタリング結果となることが実験的に確認できた。 さらに観測可能なクラスターラベルの分布が推定対象のラベル分布と異なる場合を考慮した。これはラベルのサンプリングにバイアスがかかる実用的な場面を想定したものである。バイアスが存在する場合としない場合で誤差がどの程度変化するか、またそれを修正するための手法に正当性があるかを漸近理論の立場から考察した。その結果、ラベル分布のバイアスは推定誤差を悪化させ、特にモデルの混合比パラメータの変化が大きいときにその影響が顕著であることがわかった。このことからバイアス修正の手法に正当性があることが示された。 現状の半教師あり学習の設定では、推定誤差の漸近理論としての考察とクラスタリング実験による確認であるため、誤差値の近似計算に関する計算機実験は行っていない。今後は実際に誤差値の近似計算法を実装しその挙動について調べることにより、観測可能ラベルが近似計算に与える影響を詳細に調べる計画である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
潜在変数推定に関する漸近理論を構築し、それを基に誤差値をデータから近似計算する手法を提案した。真の分布に比べモデルに冗長性がない場合とある場合、それぞれにおいて計算法を考案しクラスター分析の課題において実験的な評価を行った。冗長性がない場合は誤差の漸近形が2つのフィッシャー情報行列の積のトレースで表現される。一方、冗長性がある場合には、2つの異なるゼータ関数の極で表現される。ゼータ関数の極の数値計算はベイズ事後分布を正確に求める必要があり計算量が大きくなる。そこで事後分布の近似アルゴリズムである変分ベイズ法を利用して極の計算を代用する手法を考案した。またその実験的評価を混合ベルヌーイ分布で行った。実用的なデータを用いた評価を残し、当初の計画で挙げた研究課題はほとんど遂行している。 しかしながら変分ベイズ法のアルゴリズムがデータの統計的ゆらぎに強く影響を受けるため、数値計算の結果が安定しないという問題が明らかになった。そこで、潜在変数の一部が観測可能である「半教師あり学習」における近似計算を考察した。これは観測可能な潜在変数によって、変分ベイズ法の安定化を期待するものである。現段階では半教師あり学習における潜在変数推定誤差の漸近形を導出し、その結果から近似計算のためのアルゴリズムを構築中である。
|
今後の研究の推進方策 |
半教師あり学習の状況下での潜在変数推定は、まだ漸近理論が整備されておらず、理論の展開を行いながら誤差計算のためのアルゴリズムを構築している。漸近理論の展開として、通常の半教師あり学習の状況のみならず、観測可能な潜在変数値の分布が推定対象のものと異なる状況に拡張することに成功し、より実践的な状況に対応している。今後はこうした理論結果に基づき誤差値の近似計算法を本格的に考察し実装することで、その実用性、有効性の実験的な検証を行っていく計画である。
|
次年度の研究費の使用計画 |
機械学習に関する国際会議の参加をとりやめたため。 26年度の開催が決まった国際会議SCIS-ISIS2014の参加費及び旅費に充てたい。
|