• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Large-scale general-purpose language models for information retrieval tasks

Research Project

Project/Area Number 22K21303
Research InstitutionHitotsubashi University

Principal Investigator

欅 惇志  一橋大学, ソーシャル・データサイエンス教育研究推進センター, 准教授 (00733958)

Project Period (FY) 2022-08-31 – 2024-03-31
Keywords大規模言語モデル / クエリ表現 / 中間学習
Outline of Annual Research Achievements

本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルである BERTは,大規模コーパス(文書)を用いた高計算コストな事前学習により汎用的な言語表現を獲得し,その後にタスクに特化した低計算コストなファインチューニング(再学習)を行うことで,さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,従来の事前学習で用いられる文書に加えて,IR タスクのみに存在する検索質問(クエリ)も用いることで,IR タスクに適した事前学習を行う.これによって,複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す.
2022 年度は,IR タスクに適した事前学習として,事前学習モデルと IR タスクの再学習モデルの乖離を埋めるための中間学習を提案した.その際,一般的な NLP タスクと IR タスクの相違点である入力データの違い,すなわち,NLPタスクの入力は自然文ペアであるのに対して IR タスクの入力は数語のキーワード集合から構成されるクエリと自然文で記述された文書ペアであることに着目した.これらの差異から IR タスクにおける再学習の効果が低下されるという仮説を立て,事前学習モデルに対して IR タスクに汎用的な表現を獲得することを目的とした学習方法を提案した.その結果,提案手法を適用することで IR タスクの再学習済みモデルの検索性能の改善が確認された.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2022 年度は当初の予定の通り IR タスクに特化した事前学習手法のフレームワークの提案を行い,また,定量的・定性的にもその有効性が確認された.従って,本研究はおおむね順調に進展していると判断した.

Strategy for Future Research Activity

今後の課題として,提案モデルに適切なアテンション機構やデータ拡張手法の提案を行う.

Causes of Carryover

学会参加時にオンライン参加を行い旅費の執行がなくなったため次年度使用額が生じた.2023 年度の旅費として使用する.

  • Research Products

    (4 results)

All 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (3 results)

  • [Journal Article] 都市を横断した市民意見抽出の評価2023

    • Author(s)
      石田哲也,関洋平,欅 惇志,柏野和佳子,神門典子
    • Journal Title

      自然言語処理

      Volume: 30 Pages: -

    • Peer Reviewed / Open Access
  • [Presentation] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案2023

    • Author(s)
      欅 惇志,田中リベカ
    • Organizer
      言語処理学会第29回年次大会 (NLP2023)
  • [Presentation] ツイートを利用した地域別の市民同士のつながりを評価する指標の提案2023

    • Author(s)
      米丸 周吾,関 洋平,欅 惇志,柏野 和佳子,神門 典子
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023
  • [Presentation] 都市を横断した市民意見抽出に関する課題と手法についての検証2022

    • Author(s)
      石田 哲也,関 洋平,欅 惇志,柏野 和佳子,神門 典子
    • Organizer
      WebDB Workshop 2022

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi