2023 年度実施状況報告書

二段階最適化による汎用言語モデルの学習方法最適化

研究課題

研究課題/領域番号	23K16940
研究機関	東京大学
研究代表者	磯沼大東京大学, 大学院工学系研究科(工学部), 客員研究員 (90854191)
研究期間 (年度)	2023-04-01 – 2026-03-31
キーワード	自然言語処理 / 機械学習 / 大規模言語モデル
研究実績の概要	近年、ChatGPTをはじめとしたプロンプトを与えることで幅広いタスクに対応できる汎用言語モデルの発展が目覚ましい。汎用言語モデルを学習する方法として、タスクごとにプロンプトを用意し、プロンプトを与えたときにそのタスクを解けるようマルチタスク学習を行うことで言語モデルがプロンプトを解釈できるようにするinstruction tuningという方法が注目されている。これまで様々な学習用プロンプトがinstruction tuningのために作成されているが、どのようなプロンプトがモデルの汎化性能向上に最適なのか明らかになっておらず、その最適化に膨大な人的コストを要している。本期間では学習用プロンプトを二段階最適化により最適化するinstruction optimizationを提案し、instruction tuningに最適な学習用プロンプトを明らかにした。具体的には、学習用プロンプトで言語モデルを学習し、学習した言語モデルの汎化性能を最大化するように学習用プロンプトを最適化する。これを繰り返すことで、汎化性能向上に最適なプロンプトを獲得した。評価実験において、タスクの指示をプロンプトに用いる実験設定では、二段階最適化によりプロンプトを多様化することが汎化性能向上に有効である一方、タスクの例示をプロンプトに用いる実験設定では、多様な種類の例示ではなく同一の例示を用いる方が有効であることが明らかになった。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本期間では、二段階最適化を行う対象としてプロンプトの最適化を試み、プロンプト最適化により汎化性能が向上することを示した。研究成果はFindings of ACLに採択されたほか、2023年度人工知能学会全国大会で優秀賞をいただくなど、一定の成果が得られたものと認識している。
今後の研究の推進方策	本期間では、プロンプトの二段階最適化に取り組んだが、今後は学習データセットの二段階最適化に取り組みたい。学習データセットの二段階最適化により、言語モデルの学習コストを下げつつ、汎化性能向上に資する学習データとは何か明らかにしていく。
次年度使用額が生じた理由	本年度では人件費支出が生じなかったことから、次年度使用額が生じた。

研究成果
(9件)

すべて 2024 2023 その他

すべて国際共同研究 (2件) 雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 3件) 学会発表 (4件)

[国際共同研究] University of Edinburgh(英国)
- 国名
  英国
- 外国機関名
  University of Edinburgh
[国際共同研究] University of Amsterdam(オランダ)
- 国名
  オランダ
- 外国機関名
  University of Amsterdam
[雑誌論文] Differentiable Instruction Optimization for Cross-Task Generalization2023
- 著者名/発表者名
  Masaru Isonuma, Junichiro Mori, Ichiro Sakata
- 雑誌名
  
  Findings of the Association for Computational Linguistics: ACL 2023
  
  巻: Findings of ACL 2023 ページ: 10502-10517
- DOI
  10.18653/v1/2023.findings-acl.667
- 査読あり / オープンアクセス
[雑誌論文] Dynamic Structured Neural Topic Model with Self-Attention Mechanism2023
- 著者名/発表者名
  Nozomu Miyamoto, Masaru Isonuma, Sho Takase, Junichiro Mori, Ichiro Sakata
- 雑誌名
  
  Findings of the Association for Computational Linguistics: ACL 2023
  
  巻: Findings of ACL 2023 ページ: 5916-5930
- DOI
  10.18653/v1/2023.findings-acl.366
- 査読あり / オープンアクセス
[雑誌論文] SciReviewGen: A Large-scale Dataset for Automatic Literature Review Generation2023
- 著者名/発表者名
  Tetsu Kasanishi, Masaru Isonuma, Junichiro Mori, Ichiro Sakata
- 雑誌名
  
  Findings of the Association for Computational Linguistics: ACL 2023
  
  巻: Findings of ACL 2023 ページ: 6695-6715
- DOI
  10.18653/v1/2023.findings-acl.418
- 査読あり / オープンアクセス
[学会発表] 逆学習による言語モデルの解析2024
- 著者名/発表者名
  磯沼大, イヴァンチトフ
- 学会等名
  言語処理学会第30回年次大会
[学会発表] 人工画像を用いたText-to-Imageモデルの事前学習2024
- 著者名/発表者名
  中尾純平, 磯沼大, 片岡裕雄, 森純一郎, 坂田一郎
- 学会等名
  言語処理学会第30回年次大会
[学会発表] 汎用言語モデル学習のためのプロンプト最適化2023
- 著者名/発表者名
  磯沼大, 森純一郎, 坂田一郎
- 学会等名
  人工知能学会第37回全国大会
[学会発表] Text-to-Imageモデルの学習における最適キャプションの探索2023
- 著者名/発表者名
  中尾純平, 磯沼大, 森純一郎, 坂田一郎
- 学会等名
  人工知能学会第37回全国大会

2023 年度 実施状況報告書

二段階最適化による汎用言語モデルの学習方法最適化

研究代表者

磯沼 大 東京大学, 大学院工学系研究科(工学部), 客員研究員 (90854191)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] University of Edinburgh(英国)

国名

外国機関名

[国際共同研究] University of Amsterdam(オランダ)

国名

外国機関名

[雑誌論文] Differentiable Instruction Optimization for Cross-Task Generalization2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Dynamic Structured Neural Topic Model with Self-Attention Mechanism2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] SciReviewGen: A Large-scale Dataset for Automatic Literature Review Generation2023

著者名/発表者名

雑誌名

DOI

[学会発表] 逆学習による言語モデルの解析2024

著者名/発表者名

学会等名

[学会発表] 人工画像を用いたText-to-Imageモデルの事前学習2024

著者名/発表者名

学会等名

[学会発表] 汎用言語モデル学習のためのプロンプト最適化2023

著者名/発表者名

学会等名

[学会発表] Text-to-Imageモデルの学習における最適キャプションの探索2023

著者名/発表者名

学会等名

2023 年度実施状況報告書

磯沼大東京大学, 大学院工学系研究科(工学部), 客員研究員 (90854191)