Large-scale general-purpose language models for information retrieval tasks

Research Project

Project/Area Number	22K21303
Research Category	Grant-in-Aid for Research Activity Start-up
Allocation Type	Multi-year Fund
Review Section	1002:Human informatics, applied informatics and related fields
Research Institution	Hitotsubashi University
Principal Investigator	欅惇志一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)
Project Period (FY)	2022-08-31 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000) Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords	情報検索 / 大規模言語モデル / クエリ表現 / 中間学習 / 大規模汎用言語モデル / クエリ-文書言語モデル
Outline of Research at the Start	本研究では，さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む．大規模汎用言語モデルであるBERT はさまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した．その一方で，IR タスクでは，単にBERT をIR タスクデータセットで再学習するだけでは他のNLP タスクほど高い効果は得られず，高精度達成には複雑かつ高計算コストな学習が追加で必要となる．そこで本課題では，IR タスクに特化した情報である検索質問（クエリ）を用いることで，IR タスクに適した事前学習を行う．
Outline of Annual Research Achievements	本研究では，さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む．大規模汎用言語モデルである BERT は，大規模コーパス（文書）を用いた高計算コストな事前学習により汎用的な言語表現を獲得し，その後にタスクに特化した低計算コストなファインチューニング（再学習）を行うことで，さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した．その一方で，IR タスクでは，単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず，高精度達成には複雑かつ高計算コストな学習が追加で必要となる．そこで本課題では，従来の事前学習で用いられる文書に加えて，IR タスクのみに存在する検索質問（クエリ）も用いることで，IR タスクに適した事前学習を行う．これによって，複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す． 2023 年度は，2022年度に提案した IR タスクに適した中間段階の学習手法のより詳細な分析を行った．具体的には，4種類のデータセットにおいて提案手法の実験を行い，提案手法は汎用的に IR タスクの性能改善に寄与するのかどうか，また，いずれの状況においてより性能改善を実現することができるのか評価した．その結果，いずれのデータセットにおいても提案手法を適用することで性能が改善することが確認された．また，中間学習データセットと類似した性質を持つデータセットにおいてより性能向上が確認された．これらの成果は自然言語処理の主要な国際会議である LREC-COLING2024にて採択された．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 提案手法の汎用的な有用性評価を行うために4種類のデータセットを用いて評価実験を行った．大規模言語モデルを用いた実験には多くの計算コストを必要とするため，モデルの学習には当初の予定よりも多くの時間を必要とした．そのため，本研究の進捗はやや遅れていると判断した．しかし，提案手法の汎用的な有用性は確認されたため，一定の成果が確認されている．
Strategy for Future Research Activity	具体的には，クエリの特徴の一つである，語順が不規則であるという特徴を考慮したアテンション機構を考案する．語順が不規則とは，単一のクエリ語集合（例：{分散, 表現, 学習}）から異なるクエリ（例：「分散表現学習」と「学習分散表現」）が発行され得ることを指す．これに対し，BERT では語順（単語の前後関係）を考慮した学習が行われるため，不規則であるクエリ語の語順を学習しては，正しいクエリ-文書言語モデルを獲得することができない可能性がある．また，その一方で，複合語（例：「分散表現」）の語順が入れ替わることは稀であると想定される．そこで課題究では，複合語を除くクエリ語の語順を学習しないアテンション機構を提案する．また，アテンション機構の提案によってより緻密なクエリ-文書関係の獲得を目指す一方で，データ拡張によってデータ量の増加による汎用表現の獲得にも取り組む．その際，クエリ語は複合語を除いて不規則に出現するという特性を仮定することで，クエリ語の語順を入れ替えることで新たなクエリ-文書ペアを作成してデータ拡張を行う．

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(8 results)

All 2024 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 3 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Stance prediction with a relevance attribute to political issues in comparing the opinions of citizens and city councilors2024
- Author(s)
  Senoo Ko、Seki Yohei、Kashino Wakako、Keyaki Atsushi、Kando Noriko
- Journal Title
  
  International Journal on Digital Libraries
  
  Volume: 25 Issue: 1 Pages: 75-91
- DOI
  10.1007/s00799-024-00396-3
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Evaluation of Citizen Opinion Extraction Across Cities2023
- Author(s)
  Ishida Tetsuya、Seki Yohei、Keyaki Atsushi、Kashino Wakako、Kando Noriko
- Journal Title
  
  Journal of Natural Language Processing
  
  Volume: 30 Issue: 2 Pages: 586-631
- DOI
  10.5715/jnlp.30.586
- ISSN
  1340-7619, 2185-8314
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] 都市を横断した市民意見抽出の評価2023
- Author(s)
  石田哲也，関洋平，欅惇志，柏野和佳子，神門典子
- Journal Title
  
  自然言語処理
  
  Volume: 30
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Presentation] 都市別のソーシャルメディア投稿を利用した市民の性格特性分析2024
- Author(s)
  岩﨑大晟，関洋平，柏野和佳子，欅惇志，神門典子
- Organizer
  第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
- Related Report
  2023 Research-status Report
[Presentation] Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models2024
- Author(s)
  Atsushi Keyaki and Ribeka Keyaki
- Organizer
  2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案2023
- Author(s)
  欅惇志，田中リベカ
- Organizer
  言語処理学会第29回年次大会 (NLP2023)
- Related Report
  2022 Research-status Report
[Presentation] ツイートを利用した地域別の市民同士のつながりを評価する指標の提案2023
- Author(s)
  米丸周吾，関洋平，欅惇志，柏野和佳子，神門典子
- Organizer
  第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023
- Related Report
  2022 Research-status Report
[Presentation] 都市を横断した市民意見抽出に関する課題と手法についての検証2022
- Author(s)
  石田哲也，関洋平，欅惇志，柏野和佳子，神門典子
- Organizer
  WebDB Workshop 2022
- Related Report
  2022 Research-status Report

Large-scale general-purpose language models for information retrieval tasks

Principal Investigator

欅 惇志 一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)

¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Stance prediction with a relevance attribute to political issues in comparing the opinions of citizens and city councilors2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Evaluation of Citizen Opinion Extraction Across Cities2023

Author(s)

Journal Title

DOI

ISSN

Related Report

[Journal Article] 都市を横断した市民意見抽出の評価2023

Author(s)

Journal Title

Related Report

[Presentation] 都市別のソーシャルメディア投稿を利用した市民の性格特性分析2024

Author(s)

Organizer

Related Report

[Presentation] Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models2024

Author(s)

Organizer

Related Report

[Presentation] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案2023

Author(s)

Organizer

Related Report

[Presentation] ツイートを利用した地域別の市民同士のつながりを評価する指標の提案2023

Author(s)

Organizer

Related Report

[Presentation] 都市を横断した市民意見抽出に関する課題と手法についての検証2022

Author(s)

Organizer

Related Report

欅惇志一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)