2022 年度実施状況報告書

構成性を考慮した自然言語理解テストセットの開発

研究課題

研究課題/領域番号	22K12167
研究機関	豊橋技術科学大学
研究代表者	土屋雅稔豊橋技術科学大学, 情報メディア基盤センター, 准教授 (70378256)
研究期間 (年度)	2022-04-01 – 2027-03-31
キーワード	深層学習 / 質問応答
研究実績の概要	本研究は，質問応答タスクを含む自然言語処理タスクを題材として，以下の2つの目標を達成するためのタスク定義とデータセットを設計・構築する方法を研究する．第1の目標は，データセットから深層学習によって得られたモデルが，どのような範囲の質問に対して回答できるのか，を予測することである．既存の質問応答データセットの作成にあたっては，収録されている複数の質問q1,q2,...は，お互いに独立している．そのため，ある質問qに対してモデルが正しく推論できた場合に，別の質問q'に対しても正しく推論できるかどうかを予測する方法は，基本的には存在しない．本研究では逆に，ある質問qに対して人間が正しく推論できた場合，人間であれば正しく推論できるはずの別の質問q'を用意することによって，モデルが人間をどこまで模倣できているかを検証できるよう設計するという方針を検討する．第2の目標は，質問そのものに対する精度，信頼性を評価できる構成とすることである．従来の質問応答タスクにおいては，質問q1と文脈テキストC1の対を入力として学習を行い，異なる質問q2と文脈テキストC2の対を入力としてテストを行っている．このタスク定義は，学習によって得られたモデルMが質問q1と文脈テキストC1の対を理解しているか調べる問題設定になっているが，モデルMが質問q1を理解しているか調べる問題設定としては不十分である．同一の質問q1を異なる文脈テキストC1およびC2に対して適用した時，そして，両方の文脈テキストに対して正しく回答できた場合，そのモデルMが質問q1を理解しているとみなすことができるはずである．そこで，本研究では，1つの質問に対して複数の文脈テキストを用意したデータセットを構築する方法を研究する．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 2022年度は，日本語Wikipediaを対象として構築された既存の質問応答データセットから収集した質問qと文脈テキストC，回答aを対象として，異なる文脈テキストC1,C2,...を用意する方法について検討した．具体的には，ウェブから収集した大規模テキストコーパスから，大規模言語モデルに基づいて，回答aを含み文脈テキストCと類似しているテキスト候補を収集し，収集されたテキスト候補が本当に文脈テキストとして利用可能であるかをクラウドソーシングにより判定する作業を実施した．加えて，既存の質問応答データセットから学習されたモデルが，これらの新規の文脈テキストに対して，どのように振る舞うかを調査した．また，各種のデータセットの提案・構築・評価を進め，研究発表を行った．
今後の研究の推進方策	近年の深層学習モデルの急速な発展に伴い，深層学習モデルの信頼性や説明可能性を評価する手法の重要性は増すばかりである．そのため，引き続き，データセットから深層学習によって得られたモデルが，どのような範囲の質問に対して回答できるのか，質問そのものに対する精度，信頼性を評価できるか，という2つの目標を達成できるデータセットの構築方法についての検討を進める．ただし，近年の急速な大規模基盤モデルと Zero-shot アプローチの発展に対応する方針を併せて検討する．
次年度使用額が生じた理由	2022年度は，日本語Wikipediaを対象として構築された既存の質問応答データセットから収集した質問qと文脈テキストC，回答aを対象として，異なる文脈テキストC1,C2,...を用意する方法について検討した．具体的には，ウェブから収集した大規模テキストコーパスから，大規模言語モデルに基づいて，回答aを含み文脈テキストCと類似しているテキスト候補を収集し，収集されたテキスト候補が本当に文脈テキストとして利用可能であるかをクラウドソーシングにより判定する作業を実施した．しかし，この調査に要する作業費が，事前の予想とは異なったため次年度使用額が発生した．2023年度以後，調査の進展に伴って使用される計画である．

研究成果

(5件)

すべて 2022

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 3件) 学会発表 (2件) (うち国際学会 2件)

[雑誌論文] 日本語物語文を対象とする空所穴埋め問題データセット2022
- 著者名/発表者名
  Tsuchiya Masatoshi、Watarai Takuto
- 雑誌名
  
  Transactions of the Japanese Society for Artificial Intelligence
  
  巻: 37 ページ: A～LC3_1-12
- DOI
  10.1527/tjsai.37-4_A-LC3
- 査読あり / オープンアクセス
[雑誌論文] SDCF: semi-automatically structured dataset of citation functions2022
- 著者名/発表者名
  Basuki Setio、Tsuchiya Masatoshi
- 雑誌名
  
  Scientometrics
  
  巻: 127 ページ: 4569～4608
- DOI
  10.1007/s11192-022-04471-x
- 査読あり / オープンアクセス
[雑誌論文] The Quality Assist: A Technology-Assisted Peer Review Based on Citation Functions to Predict the Paper Quality2022
- 著者名/発表者名
  Basuki Setio、Tsuchiya Masatoshi
- 雑誌名
  
  IEEE Access
  
  巻: 10 ページ: 126815～126831
- DOI
  10.1109/ACCESS.2022.3225871
- 査読あり / オープンアクセス
[学会発表] Developing a Dataset of Overridden Information in Wikipedia2022
- 著者名/発表者名
  Masatoshi Tsuchiya, Yasutaka Yokoi
- 学会等名
  The 13th Language Resources and Evaluation Conference (LREC2022)
- 国際学会
[学会発表] Automatic Approach for Building Dataset of Citation Functions for COVID-19 Academic Papers2022
- 著者名/発表者名
  Setio Basuki, Masatoshi Tsuchiya
- 学会等名
  The Sixteenth Linguistic Annotation Workshop (LAW-XVI)
- 国際学会

2022 年度 実施状況報告書

構成性を考慮した自然言語理解テストセットの開発

研究代表者

土屋 雅稔 豊橋技術科学大学, 情報メディア基盤センター, 准教授 (70378256)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 日本語物語文を対象とする空所穴埋め問題データセット2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] SDCF: semi-automatically structured dataset of citation functions2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] The Quality Assist: A Technology-Assisted Peer Review Based on Citation Functions to Predict the Paper Quality2022

著者名/発表者名

雑誌名

DOI

[学会発表] Developing a Dataset of Overridden Information in Wikipedia2022

著者名/発表者名

学会等名

[学会発表] Automatic Approach for Building Dataset of Citation Functions for COVID-19 Academic Papers2022

著者名/発表者名

学会等名

2022 年度実施状況報告書

土屋雅稔豊橋技術科学大学, 情報メディア基盤センター, 准教授 (70378256)