述語辞書の拡張を基にした同義表現の同定手法の開発と小論文自動採点への応用

研究課題

研究課題/領域番号	22K00530
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分02060:言語学関連
研究機関	岡山大学
研究代表者	竹内孔一岡山大学, 環境生命自然科学学域, 准教授 (80311174)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	3,510千円 (直接経費: 2,700千円、間接経費: 810千円) 2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	小論文 / ルーブリック / 同義表現 / 述語項構造 / 大規模言語モデル / PropBank形式 / GPT / 意味役割 / 自動採点 / 言い換え / タグ付与 / 理解力 / 深層学習 / 類義表現 / 述語項構造シソーラス / 小論文自動採点 / グラフ構造 / 概念フレーム
研究開始時の研究の概要	蓄積してきた動詞，名詞および形容詞における述語の概念フレームと意味役割を付与したシソーラス辞書(「Xが拡大する/Xが広がる」)を基にして，項構造に基づく類義表現(「国内は格差が拡大/国内の格差が広がる」)を検出することで小論文の採点をシステムが補助する手法を開発する．公開されている日本語小論文答案には同じ意味内容で異なる表現で記述されているため類義表現が多く含まれている．そこで，小論文答案に出現する類義表現に対して述語項構造を拡張したアノテーションを付与することで構造化を行う．構造化データを基に類義表現を構造的に取り扱うモデルを構築して，小論文採点への応用する手法を開発する．
研究実績の概要	本年度は日本語小論文に対してルーブリックに関連する表現の同定作業の実施、小論文の表現を検索する手法の開発、意味役割を付与する手法の開発を行い、研究成果を学会で発表した。ルーブリックに関連する表現の同定について初年度に整理したタグの設計方針を利用して、さらに2テーマ6課題分の小論文に対してルーブリックを参考に共通して小論文に記述される内容を整理してタグ付与を実施した。また、小論文に出現する表現を述語項構造を利用して検索するためのツールを開発して発表した。小論文に対して当初は意味役割を人手で最初から付与する予定であったが、付与コストが大きいことが明らかになった。そこで、近年進展が激しい大規模言語モデルを利用した意味役割付与システムを作成することで人手による付与の軽減を行う方針に変更した。つまり意味役割付与システムを小論文データに適用後、人手で正しい意味役割に付与する方法である。意味役割付与モデルの構築方法として2種類のモデル化を実装した。ダウンロードしたローカルな言語モデルに対して意味役割付与データを追加学習させる方法と、GPT-3.5をはじめとするAPI上の大規模言語モデルに追加学習させる方法である。それぞれ構築して評価実験を行なった結果、意味役割付与対象となる項の同定部分が難しいことが明らかになった。文内のどの部分が項であるかは、検討すべき組み合わせが多く、その中から最適な部分文字列を重なりなく取り出す必要がある。実験の結果からローカルな言語モデルを利用した場合の意味役割の付与精度はF値で0.77であった。一方、GPT-3.5を利用した場合、意味役割の精度のF値は0.56であるが、正解の項の範囲を教えて意味役割ラベルのみを付与した場合は0.77と高い値を示した。これらの内容について、国際会議、および国内会議で発表した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由今年度、小論文データの残り2テーマの6課題についてルーブリックに関連する表現についてタグ付与を行った。これにより当初から予定していた中心的な4テーマ12課題の小論文に対して共通して記述される表現をアノテーションすることができた。付与したタグをもとに表現を集めることで、同義表現の分析が可能となる基本データが構築できたことになる。一方、タグが付与された表現に対する述語項構造の解析は現段階では行っていないが、今年度の研究で精度が高い意味役割手法を開発することができた。小論文はテキストデータであるため形態素解析や述語の同定は行われていない。意味役割付与システムを適用することで基本的な述語と項の候補および意味役割と概念フレームが付与される。意味役割の付与精度がF値で0.77であることから、付与後に人手による作業で修正する際、3割程度は修正が必要になることが想定される。このように人の作業を削減できるので意味役割付与データを構築する上で遅れはないと考えられる。研究成果として意味役割付与モデルの構築においていくつかの知見が得られた。本研究で付与する意味役割は主題役割に近いタグとPropBank形式の意味役割の2種類が存在する。GPT-4でアノテーションした場合にPropBank形式の意味役割はF値で0.7を超えた。しかしながら主題役割に近い日本語名の意味役割ではF値は0.6付近であった。GPT-4はfine-tuningなど適用していないためPropBank形式の意味役割をGPT-4はすでに事前学習で概念を獲得していることが推測される。また、付与精度の観点からはGPT-3.5に500文程度でfine-tuneを適用するとF値が0.75を得ており、学習することでGPT-4を上回ることを明らかにした。このように本研究によって近年の言語モデルの特性の一端を明らかにすることができた。
今後の研究の推進方策	小論文のデータに対して意味役割付与を実施してデータを構築する。今年度構築した意味役割システムの付与精度がF値で0.75から0.77と高い値が得られていることから、意味役割付与システムを小論文データに適用して意味役割と概念フレームの候補を自動付与する。その後人手の作業で修正する。人手による修正の際に、付与対象とする述語の範囲および項の範囲がシステムの出力と適合しない場合が考えられる。その際、修正作業の効率を考慮した付与範囲について整理する。各小論文に対して評価の対象として付与された表現の中から同義表現を抽出する方法についてタグと内容から整理する。例えば「グローバリゼーションの光と影」の課題1では「光」タグに対する表現を集めた場合は同義表現が収集できるが、「批判的思考」の課題3における「実例」タグを付与している箇所では取り上げる事例が各小論文で異なるため、同義表現が得られる場合が少ない。このようにどのようなタグに対して同義表現が存在するか分析する。また、同義表現を集めた場合に、述語項構造の観点から表現がどの程度似ているのかについて分析する。述語と意味役割を基本として同義表現を捉えられる範囲を調べることで、言い換えがどの程度の範囲か文の構造から整理することが期待できる。上記で構築した小論文データを利用することで採点手法を改善する方法について検討する。各課題に対して、ルーブリックで指示された内容に関連する部分がタグづけされていることから、人手の採点の際に参考になることが期待される。よって今回設定したタグの自動付与法について検討する。小論文の自動採点精度を向上させる手法について研究する。更新された大規模言語モデルが複数提案されており、利用可能な状態である。新しい言語モデルを利用することで、採点精度がどの程度向上できるかについて明らかにする。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(5件)

すべて 2023 2022

すべて学会発表 (5件) (うち国際学会 3件)

[学会発表] A Platform for Searching Texts for Desired Expressions in a User-Editable Pattern Matching Environment for Language Learning2023
- 著者名/発表者名
  Tatsuya Katsura, Koichi Takeuchi
- 学会等名
  The 14th International Congress on Advanced Applied Informatics
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Semantic Role Labeling for Japanese Using Span-Based Models2023
- 著者名/発表者名
  Callum Kodai Tulloch, Koichi Takeuchi
- 学会等名
  The 2023 7th International Conference on Natural Language Processing and Information Retrieval
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] ChatGPTによる意味役割付与システムの構築2023
- 著者名/発表者名
  大岡史明，竹内孔一
- 学会等名
  情報処理学会第153回情報基礎とアクセス技術研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Statistical Learning Models for Japanese Essay Scoring Toward One-shot Learning2022
- 著者名/発表者名
  Chihiro Ejima, Koichi Takeuchi
- 学会等名
  Proceedings of The 12th International Congress on Advanced Applied Informatics (IIAI-AAI)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 事前学習済みモデルを利用した日本語小論文採点手法の構築2022
- 著者名/発表者名
  藩宇偉、竹内孔一
- 学会等名
  第21回情報科学技術フォーラム（FIT2022）
- 関連する報告書
  2022 実施状況報告書

述語辞書の拡張を基にした同義表現の同定手法の開発と小論文自動採点への応用

研究代表者

竹内 孔一 岡山大学, 環境生命自然科学学域, 准教授 (80311174)

3,510千円 (直接経費: 2,700千円、間接経費: 810千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] A Platform for Searching Texts for Desired Expressions in a User-Editable Pattern Matching Environment for Language Learning2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Semantic Role Labeling for Japanese Using Span-Based Models2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ChatGPTによる意味役割付与システムの構築2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Statistical Learning Models for Japanese Essay Scoring Toward One-shot Learning2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 事前学習済みモデルを利用した日本語小論文採点手法の構築2022

著者名/発表者名

学会等名

関連する報告書

竹内孔一岡山大学, 環境生命自然科学学域, 准教授 (80311174)