• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

Tiny data mining: reconstruction of large scale data with probability distributions as bases

Research Project

Project/Area Number 26330256
Research InstitutionNagasaki University

Principal Investigator

正田 備也  長崎大学, 工学研究科, 准教授 (60413928)

Project Period (FY) 2014-04-01 – 2017-03-31
Keywordsトピックモデル / 機械学習 / ベイズ推定 / データマイニング / テキストマイニング
Outline of Annual Research Achievements

昨年度末に設定した「今後の研究の推進方策」と比較すると、応用面での進展はあまりなかった。しかし、変分オートエンコーダや深層学習における知見をトピックモデルに利用するという点では進展があった。
1.ICCSA2016で発表した研究に続き、APWeb2016では、correlated topic modelの変分ベイズ推定にstochastic gradient variational Bayes推定を適用するという内容で研究発表をした。これら2つの研究により、reparameterizationのテクニックがトピックモデルのベイズ推定においてきわめて有効であることを確認できた。
2.さらにPAKDD2017の併設ワークショップで、多層パーセプトロンをLDAにおける単語確率の推定に用いるという内容で研究発表を予定している。これは変分オートエンコーダとは無関係に手がけた研究だが、思わぬ副産物として、全体の文書数を知らなくてもオンライン変分ベイズで良好な性能(test perplexityによる評価)が得られることを明らかに出来た。LDAのために提案されたオンライン変分ベイズは、全体の文書数とミニバッチサイズとの比を、gradientの係数の部分に用いている。その一方、今回の研究では、深層学習分野において普通に実践されているSGDと同様、learning rateを的確にコントロールし、適切な最適化アルゴリズム(今回はAdaGrad)を使いさえすれば、トピックモデルのオンライン変分ベイズでも、全体の文書数を使わずに、collapsed Gibbs samplingと同等のtest perplexityが得られることが分かった。
・・・研究実績は以上であるが、特にふたつめの成果は、トピックモデルについて、柔軟なオンライン推定ができそうである実感が得られたという点で意義が大きかった。

Research Products

(4 results)

All 2016

All Presentation (4 results) (of which Int'l Joint Research: 4 results)

  • [Presentation] Extraction of Proper Names from Myanmar Text Using Latent Dirichlet Allocation.2016

    • Author(s)
      Yuzana Win, Tomonari Masada.
    • Organizer
      2016 Conference on Technologies and Applications of Artificial Intelligence
    • Place of Presentation
      Hsinchu, Taiwan
    • Year and Date
      2016-11-25 – 2016-11-27
    • Int'l Joint Research
  • [Presentation] A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model.2016

    • Author(s)
      Tomonari Masada, Atsuhiro Takasu.
    • Organizer
      The 18th Asia Pacific Web Conference
    • Place of Presentation
      Suzhou, China
    • Year and Date
      2016-09-23 – 2016-09-25
    • Int'l Joint Research
  • [Presentation] Exploring OOV Words from Myanmar Text Using Maximal Substrings.2016

    • Author(s)
      Yuzana Win, Tomonari Masada.
    • Organizer
      4th International Conference on Smart Computing and Artificial Intelligence
    • Place of Presentation
      Kumamoto, Japan
    • Year and Date
      2016-07-10 – 2016-07-14
    • Int'l Joint Research
  • [Presentation] A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation.2016

    • Author(s)
      Tomonari Masada, Atsuhiro Takasu.
    • Organizer
      The 16th International Conference on Computational Science and Its Applications
    • Place of Presentation
      Beijing, China
    • Year and Date
      2016-07-04 – 2016-07-07
    • Int'l Joint Research

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi