2016 Fiscal Year Annual Research Report
Tiny data mining: reconstruction of large scale data with probability distributions as bases
Project/Area Number |
26330256
|
Research Institution | Nagasaki University |
Principal Investigator |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | トピックモデル / 機械学習 / ベイズ推定 / データマイニング / テキストマイニング |
Outline of Annual Research Achievements |
昨年度末に設定した「今後の研究の推進方策」と比較すると、応用面での進展はあまりなかった。しかし、変分オートエンコーダや深層学習における知見をトピックモデルに利用するという点では進展があった。 1.ICCSA2016で発表した研究に続き、APWeb2016では、correlated topic modelの変分ベイズ推定にstochastic gradient variational Bayes推定を適用するという内容で研究発表をした。これら2つの研究により、reparameterizationのテクニックがトピックモデルのベイズ推定においてきわめて有効であることを確認できた。 2.さらにPAKDD2017の併設ワークショップで、多層パーセプトロンをLDAにおける単語確率の推定に用いるという内容で研究発表を予定している。これは変分オートエンコーダとは無関係に手がけた研究だが、思わぬ副産物として、全体の文書数を知らなくてもオンライン変分ベイズで良好な性能(test perplexityによる評価)が得られることを明らかに出来た。LDAのために提案されたオンライン変分ベイズは、全体の文書数とミニバッチサイズとの比を、gradientの係数の部分に用いている。その一方、今回の研究では、深層学習分野において普通に実践されているSGDと同様、learning rateを的確にコントロールし、適切な最適化アルゴリズム(今回はAdaGrad)を使いさえすれば、トピックモデルのオンライン変分ベイズでも、全体の文書数を使わずに、collapsed Gibbs samplingと同等のtest perplexityが得られることが分かった。 ・・・研究実績は以上であるが、特にふたつめの成果は、トピックモデルについて、柔軟なオンライン推定ができそうである実感が得られたという点で意義が大きかった。
|
Research Products
(4 results)