• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Learning explanable embeddings for topics and its applications

Research Project

Project/Area Number 23K11231
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionHiroshima University

Principal Investigator

江口 浩二  広島大学, 先進理工系科学研究科(工), 教授 (50321576)

Project Period (FY) 2023-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2026: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2025: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Keywordsトピックモデル / 大規模言語モデル / 正則化 / 知識蒸留 / 単語埋め込み / 自己教師あり学習 / データ拡張
Outline of Research at the Start

トピックモデルは単語系列を文書などの長い単位で説明性を損なわず低次元空間に射影する(「埋め込む」)ことに利点があるのに対し,単語埋め込みは単語系列において文脈を考慮しつつ単語を単位として埋め込むことに利点がある.本研究では,両者の利点を活かす統合化の試みとして,BERTなどの大規模言語モデルを教師モデルとし,深層学習に基づくトピックモデル(ニューラルトピックモデル)を生徒モデルとして,知識蒸留により学習することを提案する.また,データ拡張による擬似類似文書を生成し,自己教師あり学習に基づいた効果的な学習を試みる.

Outline of Annual Research Achievements

トピックモデル(topic models)は単語系列を文書などの長い単位で低次元空間に射影する(埋め込む)ことに利点がある.とりわけ深層学習に基づくトピックモデルはニューラルトピックモデル(neural topic models)と呼ばれ,目的に応じた拡張が比較的容易であることなどの特徴を有する.2023年度は主として下記の項目の研究成果を達成した.
1. ニューラルトピックモデルの枠組みにおいて,解釈可能なトピックの推定を実現するため,学習過程において埋め込み表現の分散および共分散に着目した正則化(regularization)を導入し,複数の文書データセットを用いた評価実験を通じて,当該手法によって従来手法よりも解釈可能性に優れたトピックが推定できることを示した.
2. 大規模なデータセットを用いて事前に学習されたモデル(事前学習済みモデル)を教師モデルとして利用しつつ,分析対象データに対するニューラルトピックモデルを学習するような,知識蒸留(knowledge distillation)に基づく学習手法を提案した.さらに,教師モデルとして用いる事前学習済みモデルとして,ニューラルトピックモデルを用いるケースだけでなく,大規模言語モデル(large language models)を用いるケースにも対応できるよう,提案手法を一般化した.
3. グラフに対する埋め込みの応用研究として,系列データ間の相関性に基づくグラフ表現に着目して埋め込み学習を行い,その性能を評価した.応用事例として,株価時系列における予測性能に関する評価実験によって当該手法の有効性を示した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

ニューラルトピックモデルに関する解釈可能性に優れた正則化学習および知識蒸留などの研究が進展したため,おおむね順調であると言える.

Strategy for Future Research Activity

2023年度の研究によって得られた成果を元にして,次年度以降も説明性に優れたトピック埋め込みモデルの学習と応用に関して研究を推進する.

Report

(1 results)
  • 2023 Research-status Report
  • Research Products

    (3 results)

All 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

  • [Journal Article] Generalized Knowledge Distillation for Topic Models2023

    • Author(s)
      Kohei Watanabe, Koji Eguchi
    • Journal Title

      PRICAI 2023: Trends in Artificial Intelligence

      Volume: LNCS-14326 Pages: 355-361

    • DOI

      10.1007/978-981-99-7022-3_32

    • ISBN
      9789819970216, 9789819970223
    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Presentation] 対照学習を用いた知識蒸留によるニューラルトピックモデルの学習2023

    • Author(s)
      渡邉 耕平, 江口 浩二
    • Organizer
      2023年度人工知能学会全国大会論文集
    • Related Report
      2023 Research-status Report
  • [Presentation] 時系列・非時系列属性の混在データに対する埋込モデル2023

    • Author(s)
      稲葉 勇哉, 江口 浩二
    • Organizer
      2023年度人工知能学会全国大会論文集
    • Related Report
      2023 Research-status Report

URL: 

Published: 2023-04-13   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi