2019 Fiscal Year Research-status Report
Research on the effectiveness of using RNN in topic models
Project/Area Number |
18K11440
|
Research Institution | Nagasaki University |
Principal Investigator |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 機械学習 / テキストマイニング / トピックモデル / 深層学習 |
Outline of Annual Research Achievements |
2019年度の研究実績は、以下の通りである。 (1) LDA(潜在的ディリクレ配分法)の変分ベイズ推定において、各文書ごとのトピック確率を周辺化してamortized inferenceを行う手法の提案(国際会議ICWE2019併設ワークショップで発表): 前年度「今後の研究の推進方策」において、次のような展望を述べた。つまり、各単語トークンのトピック割り当てを表す離散潜在変数を、LDA向けVAEの従来研究とは異なり、周辺化して消去せずに利用するという展望である。今年度はこの展望を実行に移した。提案手法は2つのアイディアから成る。(a) LDAのELBOにおいて各文書のトピック確率を積分消去し、各単語トークンのトピック割り当てを表す離散潜在変数の方を残す。これはMimnoらが2012年に提案したアイディアである。しかしトピック割り当ての事後確率を文書全体でまとめて素直に推定しようとすると組合せ論的爆発が生じる。そこで (b) amortized inferenceにより、各トークンにおいてGumbel softmax trickで用いるパラメータを同一のニューラルネットワークの出力とした。こうしてトークン間に関連性を持たせると、データセットによっては前年度の実験結果よりも良いtest perplexityが得られた。 (2) 上記(1)の手法をattention機構により拡張した手法の提案: 上記の提案手法では、各単語トークンについてのトピック割り当て確率を得る計算に、attention機構を導入できる。これにより、同一文書内のトークン間のトピック割り当て確率に依存関係をもたせるようなモデル化が可能となる。このアイディアの有効性を検証している途中で年度末を迎えた。実験データはある程度そろっているが、最終年度中にさらに実験を継続して進める予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Transformerの登場以降、自然言語処理の研究動向は大きく変わった。特に、LSTMを含むRNNが単語列のモデリングにほとんど使われなくなった。本研究の立案当時は、これほど大きな変化になると予想しなかった。 初年度は、この変化とは関係なく、LDAの変分推定にVAEを用いるという方針のもと研究を進め、一定の成果を得たと考える。しかし提案手法は、LDAのVAEに関する従来研究と同様、単語トークンのトピック割り当てを表す離散潜在変数を周辺化して消去する推定手法だった。Transformer系の言語モデリングの流行は、言語データを単語列として明示的にモデリングすることの重要性を示している。そこで今年度は、LDAのVAEにおいて各文書を単語列としてモデリングするための第一歩として、単語トークンのトピック割り当てを表す離散潜在変数のほうを残すべく、文書ごとのトピック確率を積分消去する推定を実装することにした。 その際、Mimnoらが2012年の論文で提案している方向性が参考になった。しかし、この方向性に倣うと、何の工夫もしない場合、トピック割り当てについて、トピック数の文書長乗という組合せ論的に爆発した場合の数を相手にする必要がある。Mimnoらはサンプリングによって対処したが、本研究ではGumbel softmax trickとamortized inferenceで対処した。今年度は、この試みについて一定の成果は得られたと考える。少なくとも、データセットによっては昨年度に実装したLDA向けVAEよりも良いperplexityが得られた。 しかし、残りのデータセットについては、従来のVAEよりもかなり悪いperplexityとなってしまった。この原因を探りつつ、かつ、attention機構による手法の拡張を試みている途中で年度末を迎えた。そのため、区分を(1)ではなく(2)とした。
|
Strategy for Future Research Activity |
最終年度は、トピックモデルに関して、単語トークンのトピック割り当てを表す離散潜在変数を残しつつ、各文書を単語列としてモデリングする変分推定の実現を目指す。研究の推進方策の詳細は、以下の通りである。 (1) 基本アイディアは、前年度に有効性が確認できた以下のアイディアである。つまり、LDAにおいて各単語トークンのトピック割り当てをGumbel softmax trickによってモデル化することである。今年度はRNNの利用をためらってしまったが、サーベイを進めると、Question-Answer pair generationなどの分野ではまだBi-LSTMが現役で使われていることが分かった。そこで気を取り直して、最終年度ではGumbel softmax trickで用いるパラメータをBi-LSTMの出力から得るというアイディアを実装し、評価までこぎつけたい。 (2) また、今年度は途中になってしまったが、attention機構の実験も継続して進めたい。今までの実験の感触では、それほど目覚ましい改良につながりそうにない。そのため、場合によっては、今年度の実験をそのまま継続するのではなく、Bi-LSTMによる変分推定の実装が終わってから、これにattention機構を追加する、という方策を採ることにする。 (3) さらに、Gumbel softmax trickのパラメータを得るためのニューラルネットワークへの入力データの工夫も試みる。今は、各単語のembeddingとトピックごとの単語確率を、同じパラメータ集合の異なるビューとして共有化し、学習させている。しかしこの方法では、単語のembeddingの次元をトピック数と一致させなければらない。そこで、単語のembeddingを既存の学習済み言語モデルを利用して得ることで、学習せずに済ませる方法も、試みる。
|