| Project/Area Number |
22K21303
|
| Research Category |
Grant-in-Aid for Research Activity Start-up
|
| Allocation Type | Multi-year Fund |
| Review Section |
1002:Human informatics, applied informatics and related fields
|
| Research Institution | Hitotsubashi University |
Principal Investigator |
KEYAKI Atsushi 一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)
|
| Project Period (FY) |
2022-08-31 – 2025-03-31
|
| Project Status |
Completed (Fiscal Year 2024)
|
| Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
| Keywords | 事前学習済み言語モデル / 情報検索 / 中間学習 / 大規模言語モデル / クエリ表現 / 大規模汎用言語モデル / クエリ-文書言語モデル |
| Outline of Research at the Start |
本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルであるBERT はさまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単にBERT をIR タスクデータセットで再学習するだけでは他のNLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,IR タスクに特化した情報である検索質問(クエリ)を用いることで,IR タスクに適した事前学習を行う.
|
| Outline of Final Research Achievements |
In this study, we developed a query-document language model specialized for information retrieval tasks. Existing pre-trained language models have significantly improved performance across various natural language processing tasks through task-specific, low-cost retraining. However, they have not achieved high effectiveness in information retrieval tasks. Therefore, in this work, we proposed an intermediate learning method between pre-training and fine-tuning to acquire query representations and learn query-document relationships. Evaluation experiments showed that applying the proposed method significantly improved retrieval effectiveness.
|
| Academic Significance and Societal Importance of the Research Achievements |
既存の情報検索タスクに特化した事前学習済み言語モデルの再学習において高精度達成には,複雑かつ高計算コストな学習が必要であった.また,情報検索タスクごとに独自の再学習を実施する必要があった.提案手法である中間学習を行うことで,追加の軽微な再学習を行うことでさまざまな情報検索タスクにおいて高精度を達成することができるようになった.これにより現在世界中の研究機関・民間企業で費やされている情報検索タスクの追加学習による膨大な計算時間・使用電力や人的労力が不要となるため,その恩恵は大きい.
|