研究課題
基盤研究(C)
トピックモデルは単語系列を文書などの長い単位で説明性を損なわず低次元空間に射影する(「埋め込む」)ことに利点があるのに対し,単語埋め込みは単語系列において文脈を考慮しつつ単語を単位として埋め込むことに利点がある.本研究では,両者の利点を活かす統合化の試みとして,BERTなどの大規模言語モデルを教師モデルとし,深層学習に基づくトピックモデル(ニューラルトピックモデル)を生徒モデルとして,知識蒸留により学習することを提案する.また,データ拡張による擬似類似文書を生成し,自己教師あり学習に基づいた効果的な学習を試みる.