2021 年度実施状況報告書

コーパスの構成要素としての文書と単語列としての文書を架橋するトピックモデル

研究課題

研究課題/領域番号	21K12017
研究機関	立教大学
研究代表者	正田備也立教大学, 人工知能科学研究科, 教授 (60413928)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	テキストマイニング / 機械学習 / トピックモデル / 深層学習 / ベイズ統計
研究実績の概要	本研究の目的は、コーパスに特殊的な文書エンコーダとしてのトピックモデルに、汎用性のある分散表現を与える文書エンコーダとしてのトランスフォーマ言語モデルを組み合わせ、トピックモデルによるトピック抽出の質を向上させることであった。初年度は、トピックモデルの変分推論にトランスフォーマを組み合わせる準備として、多層パーセプトロン(MLP)を用いた簡易的な単語埋め込みを使って変分推論を実現し、perplexityやNPMIで定量評価するところまで達成した。成果は国際会議SIMBig 2021で発表済みである。初年度の研究の貢献は、研究計画時は想定していなかった問題を解決した点にある。その問題とは、変分オートエンコーダ(VAE)の枠組みをトピックモデルに利用することの著しい難しさである。原因はcomponent collapseであり、過去にも同じ問題に対処しようとしたことがあった。その際は、結局、component collapseを引き起こすKL情報量の効き方を手動で調整するなど、アドホックに対処していた。今回は、Pyroが公式サイトで公開しているProdLDAの実装例も試すなどしたが、やはり、どのデータ集合でも通用する汎用性のある仕方でこの問題に対処はできず、推論のやり方自体を再検討した。その結果、SIMBig 2021の論文では、LDAの原論文に掲載されている変分下界(ELBO)をそのまま最大化する手法を提案した。つまり、VAEは使っていない。ELBOに現れる事後分布パラメータをMLPでreparameterizeすることによって、分散表現を与える文書エンコーダとトピックモデルとを組み合わせるための、新しい道を開いた。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究の目的は、特定の関心に沿って収集されたコーパスに特化された文書エンコーダとしてのトピックモデルに、汎用性のある分散表現を与える文書エンコーダとしてのBERT系のトランスフォーマモデルを組み合わせることで、トピック抽出の質を向上させることであった。この目的に照らすと、初年度では、BERT系のトランスフォーマモデルを使うところまではたどり着けなかったが、その部分をMLPで実現し、あとはMLPをトランスフォーマで置き換えればよいというところまではたどり着いた。したがって、十分な進展はあったと考える。また、変分オートエンコーダ(VAE)の利用に際して問題となるcomponent collapseを回避する手法を提案し、perplexityやNPMIなどの定量評価で、他推論手法と比較できる程度の評価結果を得られるところまでたどり着けた点は、当初の想定外の成果である。具体的には、VAEの利用そのものをやめて、トピックモデルの原論文で提案されている変分推論の変分下界(ELBO)を最大化することにする、という手法である。近年のneural topic modelsは、VAEの枠組みを採用しており、component collapseをアドホックな手法により回避している。しかし、VAEの枠組みを採用しなくても、ELBOに現れる事後分布パラメータのreparameterizationにニューラルネットを使いさえすれば、同程度に性能が良いトピックモデルの変分推論が実現できることを示した。この手法は、LDAの亜種であるトピックモデルにも利用できるので、応用範囲が広い。さらに、年度内に、MLPをトランスフォーマで置き換えた実装を完了させ、MLPの場合と比べてperplexityによる評価で妥当な評価値が得られそうであることも年度内に確認できた。そのため、おおむね順調に進展していると判断した。
今後の研究の推進方策	上述のように、初年度の研究では、トピックモデルについて元々提案されていた変分推論のELBOをニューラルネットワークでreparameterizeするというアイディアが有効であることを示した。その上で、2年目以降は、MLPをトランスフォーマで置き換え、計算機実験を進める。具体的には、２年目は、このトランスフォーマを利用したトピックモデルの変分推論について実験を重ね、その定量的な有効性と、gensimに実装されているような通常の変分推論を使う場合との定性的な違い、例えば各トピックの高確率語の顔ぶれの違いを、明らかにする。すでに進めている計算機実験では、PyTorchのTransformerEncoderを利用し、6層の軽量な言語モデルをまず事前学習し、それを、LDAのELBOのreparameterizeに、ファインチューニングなしで使っている。巨大な事前学習済み言語モデルを使わなくても、どの程度性能が良いトピックモデリングを実現できるかを明らかにすることを目指している。また、ファインチューニングの必要性の有無についても調査する予定である。この実験の後には、Webで入手できる比較的パラメータ数の多い巨大な事前学習済み言語モデル、特にSentence BERTを使い、自前で軽量のトランスフォーマ言語モデルを事前学習する場合との比較実験を行う。特に、GPUのメモリや計算時間などのリソース消費と、perplexityやNPMIで定量評価したトピックモデリングの質との、トレードオフについて、最終年度が終了するまでには明らかにする予定である。さらには、LDAから派生したトピックモデル、例えば、タイムスタンプのような文書のメタデータも同時にモデリングするトピックモデルについても、同様にそのELBOをトランスフォーマでreparameterizeして変分推論を行い、定量評価する予定である。

研究成果
(2件)

すべて 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件) (うち国際学会 1件)

[雑誌論文] AmLDA: A Non-VAE Neural Topic Model2022
- 著者名/発表者名
  Tomonari MASADA
- 雑誌名
  
  Springer Communications in Computer and Information Science
  
  巻: 1577 ページ: 281～295
- DOI
  10.1007/978-3-031-04447-2_19
- 査読あり
[学会発表] AmLDA: A Non-VAE Neural Topic Model2021
- 著者名/発表者名
  正田備也
- 学会等名
  8th International Conference on Information Management and Big Data (SIMBig 2021)
- 国際学会