研究課題/領域番号 |
22KJ0950
|
補助金の研究課題番号 |
22J14451 (2022)
|
研究種目 |
特別研究員奨励費
|
配分区分 | 基金 (2023) 補助金 (2022) |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
大葉 大輔 東京大学, 生産技術研究所, 特別研究員(PD)
|
研究期間 (年度) |
2023-03-08 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
1,700千円 (直接経費: 1,700千円)
2023年度: 800千円 (直接経費: 800千円)
2022年度: 900千円 (直接経費: 900千円)
|
キーワード | 自然言語処理 / 個人適応 / 語義曖昧性解消 / 解釈性 / バイアス除去 / 単語埋め込み / エンティティリンキング |
研究開始時の研究の概要 |
人々がマイクロブログ等を通して発信する実体験や思想を正確に理解することで、社会状況の把握や効果的なマーケティングが可能になる。しかしながら、我々人間が書く・話すことば(単語や句)の意味は、話題に対する専門性や偏った理解によって人により異なり、また同じ人のことばであっても他者の使用することばを読む・聞くことによってその意味は変化する。本研究では、周囲の人間の使用することばにも着目しながら、任意の書き手が任意の時点でことばに込める意味を連続実数ベクトル表現として計算する方法論を確立する。これにより、多種多様な人が発信するテキストを対象にした正確な言語処理の実現を目指す。
|
研究実績の概要 |
本研究課題は,任意の書き手が任意の時点で自然言語に込める意味を数理的に表現する方法論を確立するものである.
初年度は,書き手レベルで単語の意味表現を計算するための基盤モデル [Oba et al., 2020] の妥当性検証に取り組み,定量的・定性的な観点から訓練データの特徴量が計算結果に与える影響を示した.加えて,文脈依存な意味計算が行えるLLMsを基盤とすることで自然言語が持つ意味の時間的変動性をも捉えることを狙いに,LLMsを個人適応する施策に取り組み始め,適用可能なデータセットの広範性を拡大する手法を開発した.また,書き手・時間といった要素以外にもテキスト理解のために必要となる言語外情報, ”世界知識”を再学習等のコストを払わずに利用するべく,世界知識の連続表現を説明文等から動的に推定・補完する手法を提案し,国際会議EMNLPに採択された.
最終年度前半は主に,LLMsを個人適応する施策に引き続き取り組んだ.個人適応のための書き手固有な付加情報を明らかにする過程で,パラメタなどの連続的な付加情報よりもランダムID列や過去会話履歴などの離散的な付加情報の方がLLMsの個人適応を助けるという知見を,異なるデータおよびLLMsの設定において検証した.成果はプレプリントとして公開した.一方,上記研究ではLLMsの性質を制御することが難しい例も見られた.本年度後半には,その一原因は,LLMsが事前学習データから暗黙的に獲得した”偏見”にあるのではないかと仮説を立て,後処理的に偏見を削除する研究に取り組んだ.その過程で,反実仮想的・説明文的なテキストを追加入力することでLLMsに錯覚を起こし,偏見を抑制できることを示した.同時に,事前訓練そのものにも原因の究明を求めた.事前訓練を通して特定の文脈に過適合していることを示した.これら成果は国際会議EACLに採択された.
|