2018 Fiscal Year Research-status Report
Research on the effectiveness of using RNN in topic models
Project/Area Number |
18K11440
|
Research Institution | Nagasaki University |
Principal Investigator |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 機械学習 / テキストマイニング / トピックモデル / 深層学習 |
Outline of Annual Research Achievements |
平成30年度発表の研究実績は以下の4つである。 (1)文書モデルでのAVB(adversarial variational Bayes)の利用(ICDPA2018フルペーパー): 本研究課題はトピックモデルにおけるRNNの利用をテーマとする。その際、事後分布推定方法として変分ベイズ推定(VB)を使う。VBにおける近似事後分布の設定手法として、深層学習分野では主に変分オートエンコーダ(VAE)が使われる。VAEでは対角正規分布が近似事後分布としてよく用いられ、そのパラメータをELBOを最大化して求める。一方、より柔軟な近似事後分布を設定する手法としてAVB(敵対的変分ベイズ)が2017年にMeschederらによって提案された。これを文書モデリングに使い、柔軟な事後分布近似を実現した。 (2)RNNによる和歌自動生成(ICCS2018ポスター):約14万件の和歌をRNNに学習させ、和歌を自動生成する手法を提案した。生成された和歌のスコア付けにはトピックモデルを使い、高スコアのものだけ出力する。この研究を通してRNNの訓練に関する経験を蓄積できた。 (3)時間情報を利用したLDAのためのミニバッチ変分ベイズ推定(PRICAI2018ショートペーパー): LDAのVBに深層学習フレームワークを使うことはそれほどまだ広くおこなわれていない。この研究ではトピック毎の単語確率分布に時間情報を反映させたLDAを、PyTorchのテンソルのブロードキャストを利用して実現した。 (4)トピックモデルでのAVBの利用(ADMA2018ショートペーパー): この研究は、(1)の継続で、AVBをトピックモデルの変分推定に利用した。これにより、トピックモデルにおいてもAVBを柔軟な事後分布近似のために使えることが分かった。その結果、RNNを使ったトピックモデルへのAVBの適用可能性の感触を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度では、RNNをトピックモデルに利用する際に必要な要素技術について具体的な課題を設定した上で実装・実験・評価を通して経験を蓄積することを目指した。まず、VAEよりも柔軟な事後分布近似については、研究実績(1)と(4)において、AVBを文書モデルやトピックモデルの変分推定に使ってみることで、RNNを含んだベイズ的な確率モデルについてもAVBを使えそうだという見通しを立てられた。次に、RNNそのものについては、研究実績(2)において短歌自動生成という課題に取り組むことで、言語データへの適用について経験を蓄積できた。最後に、深層学習フレームワークを使ったミニバッチ最適化によるトピックモデルの変分推定については、研究実績(3)と(4)において、数百万文書規模のデータセット上で推定計算の実験をおこない、省メモリなミニバッチ推定で十分な結果が出せると確認できた。以上により、RNNを用いたトピックモデルで、柔軟な事後分布近似をおこないつつ、深層学習フレームワークを使ったミニバッチ最適化で大規模文書データの分析をおこなうための準備が整ったと言える。ただし、2年目に入るにあたって、一点、まだ準備としてやり残していることがある。それは、トピックモデルにおける離散的な隠れ変数の扱いに関する検討である。研究実績(4)では、先行研究に習って離散的な隠れ変数を周辺化して消去した。しかしこの消去が、perplexityを改良はしても、人間が理解しやすいトピック語の抽出という目的にとって良くないと分かった。そこで2年目は、RNNによって文書のTFから文書毎のトピック確率への写像を与えるencoderを実現する前に、離散変数を扱うためのGumbel softmax trickについてまず経験を蓄積することを目指したい。その後に、語順に依存して文書毎のトピック確率を与えるencoderの実装へ進みたい。
|
Strategy for Future Research Activity |
初年度の研究では、(a)AVBで柔軟な事後分布近似をおこなう可能性を確認し、(b)RNN自体についても実装・実験・評価について経験を蓄積し、(c)深層学習フレームワークを使った変分推定の実施についても経験を蓄積できた。今後の研究は次のように推進する。 (1) トピックモデルにおいて、各単語トークンのトピックへの割り当てを表す離散的な隠れ変数をミニバッチ変分推定でどのように扱えば推定がうまくいくか、明らかにする。トピックモデルでRNNを使う方法のひとつに、各文書の特徴ベクトルから文書毎のトピック確率を得る関数として使うというものがある。初年度の研究では、離散値を取るこの隠れ変数を周辺化して消去した上で変分推定を行なっていた。しかしこの周辺化が、理解しやすいトピック語を得るという目的では有用でないと分かった。そこで、離散隠れ変数をそのまま利用する技術であるGumbel softmax trickをトピックモデルで使うと何が起こるか、また、どのように使えば良い性能(perplexity)を得られるか、明らかにする。 (2) 仮に(1)の作業がうまくいけば、VAEの枠組みで近似事後分布を得るためにRNNを利用したトピックモデルを実装し、性能を評価する。 (3) 仮に(2)の作業がうまくいかなければ、離散隠れ変数は周辺化することにした上で、RNNの別の使いみちを考える。例えば[Miao+ ICML17]にあるようにencoderではなくdecoderの側で、文書ごとのトピック確率やトピック毎の単語確率を得るために使う。この場合は、変分推定においてELBOを最大化するとき、最大化される関数の一部としてRNNが使われるだけであり、encoderに使う場合のようにサンプリングを使った上でサンプルを通したbackpropagationを考える必要がないため、RNNの利用としてはより簡便である。
|
Research Products
(7 results)