2020 年度実績報告書

トピックモデルにおけるRNNの利用の有効性に関する研究

研究課題

研究課題/領域番号	18K11440
研究機関	立教大学
研究代表者	正田備也立教大学, 人工知能科学研究科, 教授 (60413928)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	機械学習 / テキストマイニング / トピックモデル / 深層学習
研究実績の概要	本年度は、コロナ禍で計画通り研究が進まず、内容上も予想外の困難があった。だが、新しいアイディアにも辿り着いた。 (1) 予定では、LDAにおけるGumbel softmax trickの利用を継続するつもりだったが、複数のデータセットで評価実験を繰り返すと、データセットによってハイパーパラメータのチューニングが非常に困難となることが分かり、このアプローチは放棄し、一から推論手法を考え直すことにした。 (2) 新規性を出すには、従来のneural topic modelのように文書のトピック確率をVAEのエンコーダの出力から得る手法をそのまま採用できない。そこで、同時進行で音声合成のための深層学習によるシーケンスデータのモデル化を試みるなど知見を広げつつ、さらに試行錯誤した結果、次のアイディアに辿り着いた。つまり、各文書に含まれる単語の分散表現のシーケンスを入力とするニューラルネットワークの出力として得た変分事後分布のパラメータを、VAE無しでELBO最大化にそのまま使う、というアイディアである。これはYoon Kimらが2019年に確率的文脈自由文法に関して提案したアイディアを参考にしており、LDAのELBO最大化でも同様のamortizationを行うことで良いperplexityが得られると分かった。検証実験はほぼ終わっており、近々論文化の予定である。 (3) この新しいアイディアを実装するにあたっては、昨年度利用を躊躇したRNNや注意機構についても、コードを少し変更するだけで対応できるようにしてある。つまり、期間全体の目標であったLDAにおけるRNNの利用、しかも今までにない形での利用について、コードを少し変更するだけのところまで到達した。コードを動かし、ハイパーパラメータのチューニングをして性能を出すことは、期間内に間に合わなかったが、今後このまま実験を進める予定である。

研究成果
(2件)

すべて 2020 その他

すべて国際共同研究 (1件) 雑誌論文 (1件) (うち国際共著 1件、査読あり 1件)

[国際共同研究] Yangon Technological University(ミャンマー)
- 国名
  ミャンマー
- 外国機関名
  Yangon Technological University
[雑誌論文] Myanmar Text-to-Speech System based on Tacotron-22020
- 著者名/発表者名
  Win Yuzana, Masada Tomonari
- 雑誌名
  
  Proceedings of 2020 International Conference on Information and Communication Technology Convergence (ICTC)
  
  巻: 1 ページ: 578-583
- DOI
  10.1109/ICTC49870.2020.9289599
- 査読あり / 国際共著