2023 Fiscal Year Research-status Report
Learning explanable embeddings for topics and its applications
Project/Area Number |
23K11231
|
Research Institution | Hiroshima University |
Principal Investigator |
江口 浩二 広島大学, 先進理工系科学研究科(工), 教授 (50321576)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Keywords | トピックモデル / 大規模言語モデル / 正則化 / 知識蒸留 |
Outline of Annual Research Achievements |
トピックモデル(topic models)は単語系列を文書などの長い単位で低次元空間に射影する(埋め込む)ことに利点がある.とりわけ深層学習に基づくトピックモデルはニューラルトピックモデル(neural topic models)と呼ばれ,目的に応じた拡張が比較的容易であることなどの特徴を有する.2023年度は主として下記の項目の研究成果を達成した. 1. ニューラルトピックモデルの枠組みにおいて,解釈可能なトピックの推定を実現するため,学習過程において埋め込み表現の分散および共分散に着目した正則化(regularization)を導入し,複数の文書データセットを用いた評価実験を通じて,当該手法によって従来手法よりも解釈可能性に優れたトピックが推定できることを示した. 2. 大規模なデータセットを用いて事前に学習されたモデル(事前学習済みモデル)を教師モデルとして利用しつつ,分析対象データに対するニューラルトピックモデルを学習するような,知識蒸留(knowledge distillation)に基づく学習手法を提案した.さらに,教師モデルとして用いる事前学習済みモデルとして,ニューラルトピックモデルを用いるケースだけでなく,大規模言語モデル(large language models)を用いるケースにも対応できるよう,提案手法を一般化した. 3. グラフに対する埋め込みの応用研究として,系列データ間の相関性に基づくグラフ表現に着目して埋め込み学習を行い,その性能を評価した.応用事例として,株価時系列における予測性能に関する評価実験によって当該手法の有効性を示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ニューラルトピックモデルに関する解釈可能性に優れた正則化学習および知識蒸留などの研究が進展したため,おおむね順調であると言える.
|
Strategy for Future Research Activity |
2023年度の研究によって得られた成果を元にして,次年度以降も説明性に優れたトピック埋め込みモデルの学習と応用に関して研究を推進する.
|
Causes of Carryover |
主たる理由として,本研究の一部において現有設備を用いた研究開発が順調であったため,当初購入する予定であった研究開発用PCの一部の購入を見送ったことが挙げられる.繰り越し分は,次年度以降の海外旅費等に充当することにより,研究の促進を図る計画である.
|