研究課題/領域番号 |
22K21303
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 一橋大学 |
研究代表者 |
欅 惇志 一橋大学, ソーシャル・データサイエンス教育研究推進センター, 准教授 (00733958)
|
研究期間 (年度) |
2022-08-31 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 大規模言語モデル / クエリ表現 / 中間学習 / 情報検索 / 大規模汎用言語モデル / クエリ-文書言語モデル |
研究開始時の研究の概要 |
本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルであるBERT はさまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単にBERT をIR タスクデータセットで再学習するだけでは他のNLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,IR タスクに特化した情報である検索質問(クエリ)を用いることで,IR タスクに適した事前学習を行う.
|
研究実績の概要 |
本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルである BERTは,大規模コーパス(文書)を用いた高計算コストな事前学習により汎用的な言語表現を獲得し,その後にタスクに特化した低計算コストなファインチューニング(再学習)を行うことで,さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,従来の事前学習で用いられる文書に加えて,IR タスクのみに存在する検索質問(クエリ)も用いることで,IR タスクに適した事前学習を行う.これによって,複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す. 2022 年度は,IR タスクに適した事前学習として,事前学習モデルと IR タスクの再学習モデルの乖離を埋めるための中間学習を提案した.その際,一般的な NLP タスクと IR タスクの相違点である入力データの違い,すなわち,NLPタスクの入力は自然文ペアであるのに対して IR タスクの入力は数語のキーワード集合から構成されるクエリと自然文で記述された文書ペアであることに着目した.これらの差異から IR タスクにおける再学習の効果が低下されるという仮説を立て,事前学習モデルに対して IR タスクに汎用的な表現を獲得することを目的とした学習方法を提案した.その結果,提案手法を適用することで IR タスクの再学習済みモデルの検索性能の改善が確認された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2022 年度は当初の予定の通り IR タスクに特化した事前学習手法のフレームワークの提案を行い,また,定量的・定性的にもその有効性が確認された.従って,本研究はおおむね順調に進展していると判断した.
|
今後の研究の推進方策 |
今後の課題として,提案モデルに適切なアテンション機構やデータ拡張手法の提案を行う.
|