Large-scale general-purpose language models for information retrieval tasks
Project/Area Number |
22K21303
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1002:Human informatics, applied informatics and related fields
|
Research Institution | Hitotsubashi University |
Principal Investigator |
欅 惇志 一橋大学, ソーシャル・データサイエンス教育研究推進センター, 准教授 (00733958)
|
Project Period (FY) |
2022-08-31 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 大規模言語モデル / クエリ表現 / 中間学習 / 情報検索 / 大規模汎用言語モデル / クエリ-文書言語モデル |
Outline of Research at the Start |
本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルであるBERT はさまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単にBERT をIR タスクデータセットで再学習するだけでは他のNLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,IR タスクに特化した情報である検索質問(クエリ)を用いることで,IR タスクに適した事前学習を行う.
|
Outline of Annual Research Achievements |
本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルである BERTは,大規模コーパス(文書)を用いた高計算コストな事前学習により汎用的な言語表現を獲得し,その後にタスクに特化した低計算コストなファインチューニング(再学習)を行うことで,さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,従来の事前学習で用いられる文書に加えて,IR タスクのみに存在する検索質問(クエリ)も用いることで,IR タスクに適した事前学習を行う.これによって,複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す. 2022 年度は,IR タスクに適した事前学習として,事前学習モデルと IR タスクの再学習モデルの乖離を埋めるための中間学習を提案した.その際,一般的な NLP タスクと IR タスクの相違点である入力データの違い,すなわち,NLPタスクの入力は自然文ペアであるのに対して IR タスクの入力は数語のキーワード集合から構成されるクエリと自然文で記述された文書ペアであることに着目した.これらの差異から IR タスクにおける再学習の効果が低下されるという仮説を立て,事前学習モデルに対して IR タスクに汎用的な表現を獲得することを目的とした学習方法を提案した.その結果,提案手法を適用することで IR タスクの再学習済みモデルの検索性能の改善が確認された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022 年度は当初の予定の通り IR タスクに特化した事前学習手法のフレームワークの提案を行い,また,定量的・定性的にもその有効性が確認された.従って,本研究はおおむね順調に進展していると判断した.
|
Strategy for Future Research Activity |
今後の課題として,提案モデルに適切なアテンション機構やデータ拡張手法の提案を行う.
|
Report
(1 results)
Research Products
(4 results)