• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Large-scale general-purpose language models for information retrieval tasks

Research Project

Project/Area Number 22K21303
Research Category

Grant-in-Aid for Research Activity Start-up

Allocation TypeMulti-year Fund
Review Section 1002:Human informatics, applied informatics and related fields
Research InstitutionHitotsubashi University

Principal Investigator

KEYAKI Atsushi  一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)

Project Period (FY) 2022-08-31 – 2025-03-31
Project Status Completed (Fiscal Year 2024)
Budget Amount *help
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords事前学習済み言語モデル / 情報検索 / 中間学習 / 大規模言語モデル / クエリ表現 / 大規模汎用言語モデル / クエリ-文書言語モデル
Outline of Research at the Start

本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルであるBERT はさまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単にBERT をIR タスクデータセットで再学習するだけでは他のNLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,IR タスクに特化した情報である検索質問(クエリ)を用いることで,IR タスクに適した事前学習を行う.

Outline of Final Research Achievements

In this study, we developed a query-document language model specialized for information retrieval tasks. Existing pre-trained language models have significantly improved performance across various natural language processing tasks through task-specific, low-cost retraining. However, they have not achieved high effectiveness in information retrieval tasks. Therefore, in this work, we proposed an intermediate learning method between pre-training and fine-tuning to acquire query representations and learn query-document relationships. Evaluation experiments showed that applying the proposed method significantly improved retrieval effectiveness.

Academic Significance and Societal Importance of the Research Achievements

既存の情報検索タスクに特化した事前学習済み言語モデルの再学習において高精度達成には,複雑かつ高計算コストな学習が必要であった.また,情報検索タスクごとに独自の再学習を実施する必要があった.提案手法である中間学習を行うことで,追加の軽微な再学習を行うことでさまざまな情報検索タスクにおいて高精度を達成することができるようになった.これにより現在世界中の研究機関・民間企業で費やされている情報検索タスクの追加学習による膨大な計算時間・使用電力や人的労力が不要となるため,その恩恵は大きい.

Report

(4 results)
  • 2024 Annual Research Report   Final Research Report ( PDF )
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (14 results)

All 2025 2024 2023 2022

All Journal Article (6 results) (of which Peer Reviewed: 6 results,  Open Access: 5 results) Presentation (8 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Building Test Collections for Japanese Dense Information Retrieval Technologies and Beyond2024

    • Author(s)
      Hideo Joho, Atsushi Keyaki, Yuuki Tachioka and Shuhei Yamamoto
    • Journal Title

      joint proceedings of the SIGIR-AP 2024 workshops EMTCIR 2024 and UM-CIR 2024

      Volume: なし

    • Related Report
      2024 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] Estimating Citizen Personality Traits Using Social Media Posts2024

    • Author(s)
      Taisei Iwasaki, Yohei Seki, Wakako Kashino, Atsushi Keyaki and Noriko Kando
    • Journal Title

      proceedings of the 26th International Conference on Asia-Pacific Digital Libraries (ICADL 2024)

      Volume: なし Pages: 119-135

    • Related Report
      2024 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models2024

    • Author(s)
      Atsushi Keyaki and Ribeka Keyaki
    • Journal Title

      proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

      Volume: なし Pages: 3413-3421

    • Related Report
      2024 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] Stance prediction with a relevance attribute to political issues in comparing the opinions of citizens and city councilors2024

    • Author(s)
      Senoo Ko、Seki Yohei、Kashino Wakako、Keyaki Atsushi、Kando Noriko
    • Journal Title

      International Journal on Digital Libraries

      Volume: 25 Issue: 1 Pages: 75-91

    • DOI

      10.1007/s00799-024-00396-3

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Evaluation of Citizen Opinion Extraction Across Cities2023

    • Author(s)
      Ishida Tetsuya、Seki Yohei、Keyaki Atsushi、Kashino Wakako、Kando Noriko
    • Journal Title

      Journal of Natural Language Processing

      Volume: 30 Issue: 2 Pages: 586-631

    • DOI

      10.5715/jnlp.30.586

    • ISSN
      1340-7619, 2185-8314
    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] 都市を横断した市民意見抽出の評価2023

    • Author(s)
      石田哲也,関洋平,欅 惇志,柏野和佳子,神門典子
    • Journal Title

      自然言語処理

      Volume: 30

    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] 株式掲示板テキストを活用したリターン予測における独立成分分析を利用した解釈性の向上2025

    • Author(s)
      中島 秀太,欅 惇志,渡部 敏明,小町 守
    • Organizer
      言語処理学会第31回年次大会 (NLP2025)
    • Related Report
      2024 Annual Research Report
  • [Presentation] 構成要素に注目した囲碁解説文の分類と生成2025

    • Author(s)
      西村 鷹和,欅 惇志,関 洋平
    • Organizer
      第17回データ工学と情報マネジメントに関するフォーラム (DEIM2025)
    • Related Report
      2024 Annual Research Report
  • [Presentation] 企業レポート中の ESG に関する公約の検証可能性の判別2025

    • Author(s)
      朱 博せん,関 洋平,欅 惇志,柏野 和佳子,神門 典子
    • Organizer
      第17回データ工学と情報マネジメントに関するフォーラム (DEIM2025)
    • Related Report
      2024 Annual Research Report
  • [Presentation] 都市別のソーシャルメディア投稿を利用した市民の性格特性分析2024

    • Author(s)
      岩﨑 大晟,関 洋平,柏野 和佳子,欅 惇志,神門 典子
    • Organizer
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • Related Report
      2023 Research-status Report
  • [Presentation] Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models2024

    • Author(s)
      Atsushi Keyaki and Ribeka Keyaki
    • Organizer
      2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案2023

    • Author(s)
      欅 惇志,田中リベカ
    • Organizer
      言語処理学会第29回年次大会 (NLP2023)
    • Related Report
      2022 Research-status Report
  • [Presentation] ツイートを利用した地域別の市民同士のつながりを評価する指標の提案2023

    • Author(s)
      米丸 周吾,関 洋平,欅 惇志,柏野 和佳子,神門 典子
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023
    • Related Report
      2022 Research-status Report
  • [Presentation] 都市を横断した市民意見抽出に関する課題と手法についての検証2022

    • Author(s)
      石田 哲也,関 洋平,欅 惇志,柏野 和佳子,神門 典子
    • Organizer
      WebDB Workshop 2022
    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-09-01   Modified: 2026-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi