研究課題/領域番号 |
20J21694
|
研究機関 | 東北大学 |
研究代表者 |
阿部 香央莉 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2020-04-24 – 2023-03-31
|
キーワード | 文表現 / ベンチマークデータセット / 機械翻訳 |
研究実績の概要 |
報告者のR3年度の主な取り組みとして,日本語における未知語の意味表現獲得に関する研究および文表現獲得のためのベンチマークに関する研究の2つが挙げられる. (日本語における未知語の意味表現獲得)自然言語処理 (NLP) 分野において欠かせない大規模言語モデルで獲得される意味表現について,その多くは英語による報告が専らである.しかし,この研究では英語以外の言語(特に日本語)における意味表現獲得の性能について着目し,結果として日英間では現在多くの研究で用いられている大規模言語モデルBERTにおける意味表現獲得性能が異なることが判明した.NLP分野全体においても,研究対象として報告される言語の偏りは問題視されており,より幅広い言語に適用可能な汎用的な枠組みが重視されている中,この言語間での性能の違いに着目することは重要であると言える.この研究成果は第249回自然言語処理研究会(NL研)に投稿・発表済みである. (文表現獲得のためのベンチマーク)上記の研究から発展し,現在,自然言語処理における意味表現獲得のためのベンチマークの一つであるSemantic Textual Similarityタスクにフォーカスして,ベンチマーク (STS) で報告される評価と実応用タスク(機械翻訳評価,質問応答など)のにおける評価ギャップについての研究を行っている.現時点では,ベンチマークタスクのために作成されたデータと実応用タスクのために作成されたデータの間には複数の側面におけるギャップがあり,またそれらのギャップがベンチマークおよびタスク間の評価におけるギャップを引き起こすことを示唆する結果が得られている.このうち,文長の側面におけるギャップに関する分析結果を,2022年度人工知能学会全国大会 (JSAI2022) に投稿済みである(発表は今年6月予定).
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
進捗状況がやや遅れている理由として,再び研究方針を変更したことが挙げられる.日本語に特化した未知語の意味表現というやや狭めのトピックから,「意味表現獲得」という大きな枠組みへ研究の焦点を変え,またその意味表現獲得の中でも特に文の意味表現獲得に関する分野について,広範にサーベイを行った上で,その文表現獲得のベンチマークであるSTSがベンチマークとして適切な働きをしているかどうかに関する分析を行うこととした. 研究の最終ゴールとしては,評価ギャップの主要因を突き止め,それを元にSTSのベンチマークデータセットを改善したものを公開するところまでを想定しているが,現在は評価ギャップの主要因を突き止めるための分析を行っている段階であり,まだデータセット改善までの明確な手順を導き出すところまでは達していないのが現状である. 少なくとも現状はこの研究方針でR4年度の研究を進めていく予定であり,トップ国際会議への論文採択を目指しているが,それが叶わなかった場合は国内の論文誌(自然言語処理論文誌)への投稿を予定している.
|
今後の研究の推進方策 |
R4年度はJSAI2022に投稿済である文長に着目したSTS・応用タスク間の評価ギャップ分析を軸として,現状判明している複数のギャップ要因(文長,語彙異なり度,語彙難易度,語彙重なり度,Readability,他)のうち最も大きな影響を与えている要因は何なのかについてより精査を進める. 文長に加えて主に語彙に関する側面に着目している理由は,語彙の違いがドメイン拡張における大きな問題の一つとなっているためである.本研究で取り上げている複数のギャップ要因の中では,語彙重なり度のギャップがSTSと実応用タスクの評価ギャップと似た傾向を示していることが分析の結果判明しており,この語彙重なり度ギャップが評価ギャップを実際どのように引き起こすかについて検証を重ねている. これらの分析の結果を踏まえて,本来の目的である適切な意味表現を獲得できるモデルを構築するために,ベンチマークデータセットがどうあるべきかについて検討を進める方針である.現状,NLP分野では最新モデルの競争がベンチマークデータセット上に閉じていることで,実際に対象の「タスクを解く」能力の評価が行えていないと危惧する声が相次いでいる.そこでベンチマークデータセットの質を見直すべきという提言がされている[Bowman&Dahl, NAACL20201]が,具体的にどのような点を改善すれば良いのか定量的に判断する方法は確立されていない.本研究を,この定量的に判断する手法およびその判断によってベンチマークセットを実際に改善した例という立ち位置として,研究を推し進める予定である.
|