2023 Fiscal Year Annual Research Report
他者との言語的接触を考慮した個人が用いることばの意味の動的計算モデル
Project/Area Number |
22KJ0950
|
Allocation Type | Multi-year Fund |
Research Institution | The University of Tokyo |
Principal Investigator |
大葉 大輔 東京大学, 生産技術研究所, 特別研究員(PD)
|
Project Period (FY) |
2023-03-08 – 2024-03-31
|
Keywords | 自然言語処理 / 個人適応 / 語義曖昧性解消 / 解釈性 / バイアス除去 |
Outline of Annual Research Achievements |
本研究課題は,任意の書き手が任意の時点で自然言語に込める意味を数理的に表現する方法論を確立するものである.
初年度は,書き手レベルで単語の意味表現を計算するための基盤モデル [Oba et al., 2020] の妥当性検証に取り組み,定量的・定性的な観点から訓練データの特徴量が計算結果に与える影響を示した.加えて,文脈依存な意味計算が行えるLLMsを基盤とすることで自然言語が持つ意味の時間的変動性をも捉えることを狙いに,LLMsを個人適応する施策に取り組み始め,適用可能なデータセットの広範性を拡大する手法を開発した.また,書き手・時間といった要素以外にもテキスト理解のために必要となる言語外情報, ”世界知識”を再学習等のコストを払わずに利用するべく,世界知識の連続表現を説明文等から動的に推定・補完する手法を提案し,国際会議EMNLPに採択された.
最終年度前半は主に,LLMsを個人適応する施策に引き続き取り組んだ.個人適応のための書き手固有な付加情報を明らかにする過程で,パラメタなどの連続的な付加情報よりもランダムID列や過去会話履歴などの離散的な付加情報の方がLLMsの個人適応を助けるという知見を,異なるデータおよびLLMsの設定において検証した.成果はプレプリントとして公開した.一方,上記研究ではLLMsの性質を制御することが難しい例も見られた.本年度後半には,その一原因は,LLMsが事前学習データから暗黙的に獲得した”偏見”にあるのではないかと仮説を立て,後処理的に偏見を削除する研究に取り組んだ.その過程で,反実仮想的・説明文的なテキストを追加入力することでLLMsに錯覚を起こし,偏見を抑制できることを示した.同時に,事前訓練そのものにも原因の究明を求めた.事前訓練を通して特定の文脈に過適合していることを示した.これら成果は国際会議EACLに採択された.
|