情報検索タスクのための大規模汎用クエリ-文書言語モデルの実現

研究課題

研究課題/領域番号	22K21303
研究種目	研究活動スタート支援
配分区分	基金
審査区分	1002:人間情報学、応用情報学およびその関連分野
研究機関	一橋大学
研究代表者	欅惇志一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)
研究期間 (年度)	2022-08-31 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	2,860千円 (直接経費: 2,200千円、間接経費: 660千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	情報検索 / 大規模言語モデル / クエリ表現 / 中間学習 / 大規模汎用言語モデル / クエリ-文書言語モデル
研究開始時の研究の概要	本研究では，さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む．大規模汎用言語モデルであるBERT はさまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した．その一方で，IR タスクでは，単にBERT をIR タスクデータセットで再学習するだけでは他のNLP タスクほど高い効果は得られず，高精度達成には複雑かつ高計算コストな学習が追加で必要となる．そこで本課題では，IR タスクに特化した情報である検索質問（クエリ）を用いることで，IR タスクに適した事前学習を行う．
研究実績の概要	本研究では，さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む．大規模汎用言語モデルである BERT は，大規模コーパス（文書）を用いた高計算コストな事前学習により汎用的な言語表現を獲得し，その後にタスクに特化した低計算コストなファインチューニング（再学習）を行うことで，さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した．その一方で，IR タスクでは，単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず，高精度達成には複雑かつ高計算コストな学習が追加で必要となる．そこで本課題では，従来の事前学習で用いられる文書に加えて，IR タスクのみに存在する検索質問（クエリ）も用いることで，IR タスクに適した事前学習を行う．これによって，複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す． 2023 年度は，2022年度に提案した IR タスクに適した中間段階の学習手法のより詳細な分析を行った．具体的には，4種類のデータセットにおいて提案手法の実験を行い，提案手法は汎用的に IR タスクの性能改善に寄与するのかどうか，また，いずれの状況においてより性能改善を実現することができるのか評価した．その結果，いずれのデータセットにおいても提案手法を適用することで性能が改善することが確認された．また，中間学習データセットと類似した性質を持つデータセットにおいてより性能向上が確認された．これらの成果は自然言語処理の主要な国際会議である LREC-COLING2024にて採択された．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由提案手法の汎用的な有用性評価を行うために4種類のデータセットを用いて評価実験を行った．大規模言語モデルを用いた実験には多くの計算コストを必要とするため，モデルの学習には当初の予定よりも多くの時間を必要とした．そのため，本研究の進捗はやや遅れていると判断した．しかし，提案手法の汎用的な有用性は確認されたため，一定の成果が確認されている．
今後の研究の推進方策	具体的には，クエリの特徴の一つである，語順が不規則であるという特徴を考慮したアテンション機構を考案する．語順が不規則とは，単一のクエリ語集合（例：{分散, 表現, 学習}）から異なるクエリ（例：「分散表現学習」と「学習分散表現」）が発行され得ることを指す．これに対し，BERT では語順（単語の前後関係）を考慮した学習が行われるため，不規則であるクエリ語の語順を学習しては，正しいクエリ-文書言語モデルを獲得することができない可能性がある．また，その一方で，複合語（例：「分散表現」）の語順が入れ替わることは稀であると想定される．そこで課題究では，複合語を除くクエリ語の語順を学習しないアテンション機構を提案する．また，アテンション機構の提案によってより緻密なクエリ-文書関係の獲得を目指す一方で，データ拡張によってデータ量の増加による汎用表現の獲得にも取り組む．その際，クエリ語は複合語を除いて不規則に出現するという特性を仮定することで，クエリ語の語順を入れ替えることで新たなクエリ-文書ペアを作成してデータ拡張を行う．

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(8件)

すべて 2024 2023 2022

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 3件) 学会発表 (5件) (うち国際学会 1件)

[雑誌論文] Stance prediction with a relevance attribute to political issues in comparing the opinions of citizens and city councilors2024
- 著者名/発表者名
  Senoo Ko、Seki Yohei、Kashino Wakako、Keyaki Atsushi、Kando Noriko
- 雑誌名
  
  International Journal on Digital Libraries
  
  巻: 25 号: 1 ページ: 75-91
- DOI
  10.1007/s00799-024-00396-3
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 都市を横断した市民意見抽出の評価2023
- 著者名/発表者名
  Ishida Tetsuya、Seki Yohei、Keyaki Atsushi、Kashino Wakako、Kando Noriko
- 雑誌名
  
  自然言語処理
  
  巻: 30 号: 2 ページ: 586-631
- DOI
  10.5715/jnlp.30.586
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 都市を横断した市民意見抽出の評価2023
- 著者名/発表者名
  石田哲也，関洋平，欅惇志，柏野和佳子，神門典子
- 雑誌名
  
  自然言語処理
  
  巻: 30
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 都市別のソーシャルメディア投稿を利用した市民の性格特性分析2024
- 著者名/発表者名
  岩﨑大晟，関洋平，柏野和佳子，欅惇志，神門典子
- 学会等名
  第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
- 関連する報告書
  2023 実施状況報告書
[学会発表] Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models2024
- 著者名/発表者名
  Atsushi Keyaki and Ribeka Keyaki
- 学会等名
  2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案2023
- 著者名/発表者名
  欅惇志，田中リベカ
- 学会等名
  言語処理学会第29回年次大会 (NLP2023)
- 関連する報告書
  2022 実施状況報告書
[学会発表] ツイートを利用した地域別の市民同士のつながりを評価する指標の提案2023
- 著者名/発表者名
  米丸周吾，関洋平，欅惇志，柏野和佳子，神門典子
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023
- 関連する報告書
  2022 実施状況報告書
[学会発表] 都市を横断した市民意見抽出に関する課題と手法についての検証2022
- 著者名/発表者名
  石田哲也，関洋平，欅惇志，柏野和佳子，神門典子
- 学会等名
  WebDB Workshop 2022
- 関連する報告書
  2022 実施状況報告書

情報検索タスクのための大規模汎用クエリ-文書言語モデルの実現

研究代表者

欅 惇志 一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)

2,860千円 (直接経費: 2,200千円、間接経費: 660千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Stance prediction with a relevance attribute to political issues in comparing the opinions of citizens and city councilors2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 都市を横断した市民意見抽出の評価2023

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] 都市を横断した市民意見抽出の評価2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 都市別のソーシャルメディア投稿を利用した市民の性格特性分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Coarse-Tuning for Ad-hoc Document Retrieval Using Pre-trained Language Models2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ツイートを利用した地域別の市民同士のつながりを評価する指標の提案2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 都市を横断した市民意見抽出に関する課題と手法についての検証2022

著者名/発表者名

学会等名

関連する報告書

欅惇志一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)