研究課題/領域番号 |
22K21303
|
研究機関 | 一橋大学 |
研究代表者 |
欅 惇志 一橋大学, 大学院ソーシャル・データサイエンス研究科, 准教授 (00733958)
|
研究期間 (年度) |
2022-08-31 – 2025-03-31
|
キーワード | 情報検索 / 大規模言語モデル / クエリ表現 / 中間学習 |
研究実績の概要 |
本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルである BERT は,大規模コーパス(文書)を用いた高計算コストな事前学習により汎用的な言語表現を獲得し,その後にタスクに特化した低計算コストなファインチューニング(再学習)を行うことで,さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,従来の事前学習で用いられる文書に加えて,IR タスクのみに存在する検索質問(クエリ)も用いることで,IR タスクに適した事前学習を行う.これによって,複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す. 2023 年度は,2022年度に提案した IR タスクに適した中間段階の学習手法のより詳細な分析を行った.具体的には,4種類のデータセットにおいて提案手法の実験を行い,提案手法は汎用的に IR タスクの性能改善に寄与するのかどうか,また,いずれの状況においてより性能改善を実現することができるのか評価した.その結果,いずれのデータセットにおいても提案手法を適用することで性能が改善することが確認された.また,中間学習データセットと類似した性質を持つデータセットにおいてより性能向上が確認された.これらの成果は自然言語処理の主要な国際会議である LREC-COLING2024にて採択された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
提案手法の汎用的な有用性評価を行うために4種類のデータセットを用いて評価実験を行った.大規模言語モデルを用いた実験には多くの計算コストを必要とするため,モデルの学習には当初の予定よりも多くの時間を必要とした.そのため,本研究の進捗はやや遅れていると判断した. しかし,提案手法の汎用的な有用性は確認されたため,一定の成果が確認されている.
|
今後の研究の推進方策 |
具体的には,クエリの特徴の一つである,語順が不規則であるという特徴を考慮したアテンション機構を考案する.語順が不規則とは,単一のクエリ語集合(例:{分散, 表現, 学習})から異なるクエリ(例:「分散 表現 学習」と「学習 分散 表現」)が発行され得ることを指す.これに対し,BERT では語順(単語の前後関係)を考慮した学習が行われるため,不規則であるクエリ語の語順を学習しては,正しいクエリ-文書言語モデルを獲得することができない可能性がある.また,その一方で,複合語(例:「分散 表現」)の語順が入れ替わることは稀であると想定される.そこで課題究では,複合語を除くクエリ語の語順を学習しないアテンション機構を提案する. また,アテンション機構の提案によってより緻密なクエリ-文書関係の獲得を目指す一方で,データ拡張によってデータ量の増加による汎用表現の獲得にも取り組む.その際,クエリ語は複合語を除いて不規則に出現するという特性を仮定することで,クエリ語の語順を入れ替えることで新たなクエリ-文書ペアを作成してデータ拡張を行う.
|
次年度使用額が生じた理由 |
2023年度に取り組んだ研究内容は2024年度に開催される国際会議であるLREC-COLING2024にて採択された.当該国際会議への参加費として使用するため次年度使用額が生じた.
|