説明性に優れたトピック埋め込みモデルの学習と応用

研究課題

研究課題/領域番号	23K11231
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	広島大学
研究代表者	江口浩二広島大学, 先進理工系科学研究科(工), 教授 (50321576)
研究期間 (年度)	2023-04-01 – 2027-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円) 2026年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2025年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワード	トピックモデル / 大規模言語モデル / 正則化 / 知識蒸留 / 単語埋め込み / 自己教師あり学習 / データ拡張
研究開始時の研究の概要	トピックモデルは単語系列を文書などの長い単位で説明性を損なわず低次元空間に射影する(「埋め込む」)ことに利点があるのに対し，単語埋め込みは単語系列において文脈を考慮しつつ単語を単位として埋め込むことに利点がある.本研究では，両者の利点を活かす統合化の試みとして，BERTなどの大規模言語モデルを教師モデルとし，深層学習に基づくトピックモデル（ニューラルトピックモデル）を生徒モデルとして，知識蒸留により学習することを提案する.また，データ拡張による擬似類似文書を生成し，自己教師あり学習に基づいた効果的な学習を試みる.
研究実績の概要	トピックモデル（topic models）は単語系列を文書などの長い単位で低次元空間に射影する(埋め込む)ことに利点がある．とりわけ深層学習に基づくトピックモデルはニューラルトピックモデル（neural topic models）と呼ばれ，目的に応じた拡張が比較的容易であることなどの特徴を有する．2023年度は主として下記の項目の研究成果を達成した． 1. ニューラルトピックモデルの枠組みにおいて，解釈可能なトピックの推定を実現するため，学習過程において埋め込み表現の分散および共分散に着目した正則化（regularization）を導入し，複数の文書データセットを用いた評価実験を通じて，当該手法によって従来手法よりも解釈可能性に優れたトピックが推定できることを示した． 2. 大規模なデータセットを用いて事前に学習されたモデル（事前学習済みモデル）を教師モデルとして利用しつつ，分析対象データに対するニューラルトピックモデルを学習するような，知識蒸留（knowledge distillation）に基づく学習手法を提案した．さらに，教師モデルとして用いる事前学習済みモデルとして，ニューラルトピックモデルを用いるケースだけでなく，大規模言語モデル（large language models）を用いるケースにも対応できるよう，提案手法を一般化した． 3. グラフに対する埋め込みの応用研究として，系列データ間の相関性に基づくグラフ表現に着目して埋め込み学習を行い，その性能を評価した．応用事例として，株価時系列における予測性能に関する評価実験によって当該手法の有効性を示した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由ニューラルトピックモデルに関する解釈可能性に優れた正則化学習および知識蒸留などの研究が進展したため，おおむね順調であると言える．
今後の研究の推進方策	2023年度の研究によって得られた成果を元にして，次年度以降も説明性に優れたトピック埋め込みモデルの学習と応用に関して研究を推進する．

報告書

(1件)

2023 実施状況報告書

研究成果
(3件)

すべて 2023

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)

[雑誌論文] Generalized Knowledge Distillation for Topic Models2023
- 著者名/発表者名
  Kohei Watanabe, Koji Eguchi
- 雑誌名
  
  PRICAI 2023: Trends in Artificial Intelligence
  
  巻: LNCS-14326 ページ: 355-361
- DOI
  10.1007/978-981-99-7022-3_32
- ISBN
  9789819970216, 9789819970223
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] 対照学習を用いた知識蒸留によるニューラルトピックモデルの学習2023
- 著者名/発表者名
  渡邉耕平, 江口浩二
- 学会等名
  2023年度人工知能学会全国大会論文集
- 関連する報告書
  2023 実施状況報告書
[学会発表] 時系列・非時系列属性の混在データに対する埋込モデル2023
- 著者名/発表者名
  稲葉勇哉, 江口浩二
- 学会等名
  2023年度人工知能学会全国大会論文集
- 関連する報告書
  2023 実施状況報告書

説明性に優れたトピック埋め込みモデルの学習と応用

研究代表者

江口 浩二 広島大学, 先進理工系科学研究科(工), 教授 (50321576)

4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Generalized Knowledge Distillation for Topic Models2023

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[学会発表] 対照学習を用いた知識蒸留によるニューラルトピックモデルの学習2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 時系列・非時系列属性の混在データに対する埋込モデル2023

著者名/発表者名

学会等名

関連する報告書

江口浩二広島大学, 先進理工系科学研究科(工), 教授 (50321576)