• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Large-scale general-purpose language models for information retrieval tasks

Research Project

Project/Area Number 22K21303
Research Category

Grant-in-Aid for Research Activity Start-up

Allocation TypeMulti-year Fund
Review Section 1002:Human informatics, applied informatics and related fields
Research InstitutionHitotsubashi University

Principal Investigator

欅 惇志  一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)

Project Period (FY) 2022-08-31 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords情報検索 / 大規模言語モデル / クエリ表現 / 中間学習 / 大規模汎用言語モデル / クエリ-文書言語モデル
Outline of Research at the Start

本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルであるBERT はさまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単にBERT をIR タスクデータセットで再学習するだけでは他のNLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,IR タスクに特化した情報である検索質問(クエリ)を用いることで,IR タスクに適した事前学習を行う.

Outline of Annual Research Achievements

本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルである BERT は,大規模コーパス(文書)を用いた高計算コストな事前学習により汎用的な言語表現を獲得し,その後にタスクに特化した低計算コストなファインチューニング(再学習)を行うことで,さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,従来の事前学習で用いられる文書に加えて,IR タスクのみに存在する検索質問(クエリ)も用いることで,IR タスクに適した事前学習を行う.これによって,複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す.
2023 年度は,2022年度に提案した IR タスクに適した中間段階の学習手法のより詳細な分析を行った.具体的には,4種類のデータセットにおいて提案手法の実験を行い,提案手法は汎用的に IR タスクの性能改善に寄与するのかどうか,また,いずれの状況においてより性能改善を実現することができるのか評価した.その結果,いずれのデータセットにおいても提案手法を適用することで性能が改善することが確認された.また,中間学習データセットと類似した性質を持つデータセットにおいてより性能向上が確認された.これらの成果は自然言語処理の主要な国際会議である LREC-COLING2024にて採択された.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

提案手法の汎用的な有用性評価を行うために4種類のデータセットを用いて評価実験を行った.大規模言語モデルを用いた実験には多くの計算コストを必要とするため,モデルの学習には当初の予定よりも多くの時間を必要とした.そのため,本研究の進捗はやや遅れていると判断した.
しかし,提案手法の汎用的な有用性は確認されたため,一定の成果が確認されている.

Strategy for Future Research Activity

具体的には,クエリの特徴の一つである,語順が不規則であるという特徴を考慮したアテンション機構を考案する.語順が不規則とは,単一のクエリ語集合(例:{分散, 表現, 学習})から異なるクエリ(例:「分散 表現 学習」と「学習 分散 表現」)が発行され得ることを指す.これに対し,BERT では語順(単語の前後関係)を考慮した学習が行われるため,不規則であるクエリ語の語順を学習しては,正しいクエリ-文書言語モデルを獲得することができない可能性がある.また,その一方で,複合語(例:「分散 表現」)の語順が入れ替わることは稀であると想定される.そこで課題究では,複合語を除くクエリ語の語順を学習しないアテンション機構を提案する.
また,アテンション機構の提案によってより緻密なクエリ-文書関係の獲得を目指す一方で,データ拡張によってデータ量の増加による汎用表現の獲得にも取り組む.その際,クエリ語は複合語を除いて不規則に出現するという特性を仮定することで,クエリ語の語順を入れ替えることで新たなクエリ-文書ペアを作成してデータ拡張を行う.

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (8 results)

All 2024 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 3 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Stance prediction with a relevance attribute to political issues in comparing the opinions of citizens and city councilors2024

    • Author(s)
      Senoo Ko、Seki Yohei、Kashino Wakako、Keyaki Atsushi、Kando Noriko
    • Journal Title

      International Journal on Digital Libraries

      Volume: 25 Issue: 1 Pages: 75-91

    • DOI

      10.1007/s00799-024-00396-3

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Evaluation of Citizen Opinion Extraction Across Cities2023

    • Author(s)
      Ishida Tetsuya、Seki Yohei、Keyaki Atsushi、Kashino Wakako、Kando Noriko
    • Journal Title

      Journal of Natural Language Processing

      Volume: 30 Issue: 2 Pages: 586-631

    • DOI

      10.5715/jnlp.30.586

    • ISSN
      1340-7619, 2185-8314
    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] 都市を横断した市民意見抽出の評価2023

    • Author(s)
      石田哲也,関洋平,欅 惇志,柏野和佳子,神門典子
    • Journal Title

      自然言語処理

      Volume: 30

    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] 都市別のソーシャルメディア投稿を利用した市民の性格特性分析2024

    • Author(s)
      岩﨑 大晟,関 洋平,柏野 和佳子,欅 惇志,神門 典子
    • Organizer
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • Related Report
      2023 Research-status Report
  • [Presentation] Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models2024

    • Author(s)
      Atsushi Keyaki and Ribeka Keyaki
    • Organizer
      2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案2023

    • Author(s)
      欅 惇志,田中リベカ
    • Organizer
      言語処理学会第29回年次大会 (NLP2023)
    • Related Report
      2022 Research-status Report
  • [Presentation] ツイートを利用した地域別の市民同士のつながりを評価する指標の提案2023

    • Author(s)
      米丸 周吾,関 洋平,欅 惇志,柏野 和佳子,神門 典子
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023
    • Related Report
      2022 Research-status Report
  • [Presentation] 都市を横断した市民意見抽出に関する課題と手法についての検証2022

    • Author(s)
      石田 哲也,関 洋平,欅 惇志,柏野 和佳子,神門 典子
    • Organizer
      WebDB Workshop 2022
    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-09-01   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi