研究課題/領域番号 |
23K11231
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 広島大学 |
研究代表者 |
江口 浩二 広島大学, 先進理工系科学研究科(工), 教授 (50321576)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2026年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2025年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | トピックモデル / 大規模言語モデル / 正則化 / 知識蒸留 / 単語埋め込み / 自己教師あり学習 / データ拡張 |
研究開始時の研究の概要 |
トピックモデルは単語系列を文書などの長い単位で説明性を損なわず低次元空間に射影する(「埋め込む」)ことに利点があるのに対し,単語埋め込みは単語系列において文脈を考慮しつつ単語を単位として埋め込むことに利点がある.本研究では,両者の利点を活かす統合化の試みとして,BERTなどの大規模言語モデルを教師モデルとし,深層学習に基づくトピックモデル(ニューラルトピックモデル)を生徒モデルとして,知識蒸留により学習することを提案する.また,データ拡張による擬似類似文書を生成し,自己教師あり学習に基づいた効果的な学習を試みる.
|
研究実績の概要 |
トピックモデル(topic models)は単語系列を文書などの長い単位で低次元空間に射影する(埋め込む)ことに利点がある.とりわけ深層学習に基づくトピックモデルはニューラルトピックモデル(neural topic models)と呼ばれ,目的に応じた拡張が比較的容易であることなどの特徴を有する.2023年度は主として下記の項目の研究成果を達成した. 1. ニューラルトピックモデルの枠組みにおいて,解釈可能なトピックの推定を実現するため,学習過程において埋め込み表現の分散および共分散に着目した正則化(regularization)を導入し,複数の文書データセットを用いた評価実験を通じて,当該手法によって従来手法よりも解釈可能性に優れたトピックが推定できることを示した. 2. 大規模なデータセットを用いて事前に学習されたモデル(事前学習済みモデル)を教師モデルとして利用しつつ,分析対象データに対するニューラルトピックモデルを学習するような,知識蒸留(knowledge distillation)に基づく学習手法を提案した.さらに,教師モデルとして用いる事前学習済みモデルとして,ニューラルトピックモデルを用いるケースだけでなく,大規模言語モデル(large language models)を用いるケースにも対応できるよう,提案手法を一般化した. 3. グラフに対する埋め込みの応用研究として,系列データ間の相関性に基づくグラフ表現に着目して埋め込み学習を行い,その性能を評価した.応用事例として,株価時系列における予測性能に関する評価実験によって当該手法の有効性を示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ニューラルトピックモデルに関する解釈可能性に優れた正則化学習および知識蒸留などの研究が進展したため,おおむね順調であると言える.
|
今後の研究の推進方策 |
2023年度の研究によって得られた成果を元にして,次年度以降も説明性に優れたトピック埋め込みモデルの学習と応用に関して研究を推進する.
|