研究課題/領域番号 |
20J21694
|
研究機関 | 東北大学 |
研究代表者 |
阿部 香央莉 東北大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2020-04-24 – 2023-03-31
|
キーワード | 文表現 / ベンチマークデータセット / 機械翻訳 / 意味表現獲得 |
研究実績の概要 |
R2年度の取り組みはR2年度終了時の研究報告書に記載済みのため,R3年度の内容を記載する. R3年度の主な取り組みとして,日本語における未知語の意味表現獲得に関する研究および文表現獲得のためのベンチマークに関する研究の2つが挙げられる.科研費申請時の主目的は、タスク志向型対話・雑談対話の境界にあたるテーマ型対話について、人間の対話をマネジメントする方法論の解明に取り組むこととしていたが,コロナ禍の影響によるデータ収集の問題や扱うデータに関する秘密保持契約等の問題から,受入研究者との相談を経て大幅な研究計画変更を行っている. (日本語における未知語の意味表現獲得)自然言語処理 (NLP) 分野において欠かせない大規模言語モデルで獲得される意味表現について,その多くは英語による報告が専らであるが,本研究では英語と日本語の2言語を対象とした単語の意味表現獲得の性能測定実験を行い,結果として日英間では現在多くの研究で用いられている大規模言語モデルにおける意味表現獲得性能が異なることが判明した.分野全体においても,研究対象として報告される言語の偏りは問題視されており,より幅広い言語に適用可能な汎用的な枠組みが重視されている中,この言語間での性能の違いに着目することは重要である. (文表現獲得のためのベンチマーク)上記の研究から発展し,NLPにおける意味表現獲得のためのベンチマークの一つであるSemantic Textual Similarityタスクに焦点を当て,ベンチマーク (STS) で報告される評価と実応用タスク(機械翻訳評価,質問応答など)のにおける評価ギャップについての研究を行っている.ベンチマークタスクデータと実応用タスクデータ間には複数の側面におけるギャップがあり,またそれらのギャップがベンチマークおよびタスク間の評価におけるギャップを引き起こすことを示唆する結果が得られた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
進捗状況がやや遅れている理由として,R2年度の「対話マネジメントシステム構築」→「未知語を扱うための方法論構築」の方針変更に重ね,再び研究方針を変更したことが挙げられる. 今回は日本語に特化した未知語の意味表現というやや狭いトピックから,「意味表現獲得」という大きな枠組みへ研究の焦点を変え,またその意味表現獲得の中でも特に文の意味表現獲得に関する分野について,広範にサーベイを行ったのち,その文表現獲得のベンチマークとされるSTSがベンチマークとして適切な働きをしているかどうかに関する分析を行うことにした. 研究の最終ゴールとしてはSTSのベンチマークデータセットの改良版を公開するところまでを想定しているが,現在は評価ギャップの主要因を突き止めるための分析を行っている段階であり,まだそのデータセット改善までの明確な手順を導き出すところまでは達していないのが現状である. 少なくとも現状はこの研究方針でR4年度の研究を進めていく予定であり,トップ国際会議への論文採択を目指しているが,それが叶わなかった場合は国内の論文誌(自然言語処理論文誌)への投稿を予定している.
|
今後の研究の推進方策 |
研究実績の概要と同様に,R3年度時点の今後の研究推進方策を記載する. R3年度時点で進捗状況が遅れている理由は,研究方針の変更およびそれに伴うサーヴェイに時間をかけるためであったため,R4年度は積極的に分析実験を進めていく方針である. 今後の方針としては,文長に着目したSTS・応用タスク間の評価ギャップ分析を軸とし,現状判明している文長ギャップを含む複数のギャップ要因(語彙異なり度,語彙難易度,語彙重なり度,Readability,他)のうち最も大きな影響を与えている要因は何なのか,より精査を進めていく. 文長に加えて主に語彙に関する側面に着目している理由として,語彙の違いがドメイン拡張における大きな問題の一つとなっていることが挙げられる.現状,本研究で取り上げている複数のギャップ要因の中では,語彙重なり度のギャップがSTSと実応用タスクの評価ギャップと似た傾向を示していることが分析の結果判明しており,この語彙重なり度ギャップが評価ギャップを実際どのように引き起こすかについて検証を重ねている. これらの分析の結果を踏まえて,本来の目的である適切な意味表現を獲得できるモデルを構築するために,ベンチマークデータセットがどうあるべきかについて検討を進める方針である.現状,NLP分野では最新モデルの競争がベンチマークデータセット上に閉じていることで実際に対象の「タスクを解く」能力の評価が行えていないと危惧する声が相次いでおり,ベンチマークデータセットの質を見直すべきという提言がされており[Bowman&Dahl, NAACL20201],現在分野内では具体的にどのような点を改善すれば良いのかを研究する流れが生じている.本研究は,この流れに沿って定量的にベンチマークデータの質を測る手法を探求し,ベンチマークセットを実際に改善した例という立ち位置として,研究を推し進める予定である.
|