2023 Fiscal Year Research-status Report
Development of a method for synonymous expressions based on annotated predicate-argument graph data and its application to automatic essay scoring
Project/Area Number |
22K00530
|
Research Institution | Okayama University |
Principal Investigator |
竹内 孔一 岡山大学, 環境生命自然科学学域, 准教授 (80311174)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 小論文 / ルーブリック / 同義表現 / 述語項構造 / 大規模言語モデル / PropBank形式 / GPT / 意味役割 |
Outline of Annual Research Achievements |
本年度は日本語小論文に対してルーブリックに関連する表現の同定作業の実施、小論文の表現を検索する手法の開発、意味役割を付与する手法の開発を行い、研究成果を学会で発表した。 ルーブリックに関連する表現の同定について初年度に整理したタグの設計方針を利用して、さらに2テーマ6課題分の小論文に対してルーブリックを参考に共通して小論文に記述される内容を整理してタグ付与を実施した。また、小論文に出現する表現を述語項構造を利用して検索するためのツールを開発して発表した。 小論文に対して当初は意味役割を人手で最初から付与する予定であったが、付与コストが大きいことが明らかになった。そこで、近年進展が激しい大規模言語モデルを利用した意味役割付与システムを作成することで人手による付与の軽減を行う方針に変更した。つまり意味役割付与システムを小論文データに適用後、人手で正しい意味役割に付与する方法である。 意味役割付与モデルの構築方法として2種類のモデル化を実装した。ダウンロードしたローカルな言語モデルに対して意味役割付与データを追加学習させる方法と、GPT-3.5をはじめとするAPI上の大規模言語モデルに追加学習させる方法である。それぞれ構築して評価実験を行なった結果、意味役割付与対象となる項の同定部分が難しいことが明らかになった。文内のどの部分が項であるかは、検討すべき組み合わせが多く、その中から最適な部分文字列を重なりなく取り出す必要がある。実験の結果からローカルな言語モデルを利用した場合の意味役割の付与精度はF値で0.77であった。一方、GPT-3.5を利用した場合、意味役割の精度のF値は0.56であるが、正解の項の範囲を教えて意味役割ラベルのみを付与した場合は0.77と高い値を示した。これらの内容について、国際会議、および国内会議で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度、小論文データの残り2テーマの6課題についてルーブリックに関連する表現についてタグ付与を行った。これにより当初から予定していた中心的な4テーマ12課題の小論文に対して共通して記述される表現をアノテーションすることができた。付与したタグをもとに表現を集めることで、同義表現の分析が可能となる基本データが構築できたことになる。 一方、タグが付与された表現に対する述語項構造の解析は現段階では行っていないが、今年度の研究で精度が高い意味役割手法を開発することができた。小論文はテキストデータであるため形態素解析や述語の同定は行われていない。意味役割付与システムを適用することで基本的な述語と項の候補および意味役割と概念フレームが付与される。意味役割の付与精度がF値で0.77であることから、付与後に人手による作業で修正する際、3割程度は修正が必要になることが想定される。このように人の作業を削減できるので意味役割付与データを構築する上で遅れはないと考えられる。 研究成果として意味役割付与モデルの構築においていくつかの知見が得られた。本研究で付与する意味役割は主題役割に近いタグとPropBank形式の意味役割の2種類が存在する。GPT-4でアノテーションした場合にPropBank形式の意味役割はF値で0.7を超えた。しかしながら主題役割に近い日本語名の意味役割ではF値は0.6付近であった。GPT-4はfine-tuningなど適用していないためPropBank形式の意味役割をGPT-4はすでに事前学習で概念を獲得していることが推測される。また、付与精度の観点からはGPT-3.5に500文程度でfine-tuneを適用するとF値が0.75を得ており、学習することでGPT-4を上回ることを明らかにした。このように本研究によって近年の言語モデルの特性の一端を明らかにすることができた。
|
Strategy for Future Research Activity |
小論文のデータに対して意味役割付与を実施してデータを構築する。今年度構築した意味役割システムの付与精度がF値で0.75から0.77と高い値が得られていることから、意味役割付与システムを小論文データに適用して意味役割と概念フレームの候補を自動付与する。その後人手の作業で修正する。人手による修正の際に、付与対象とする述語の範囲および項の範囲がシステムの出力と適合しない場合が考えられる。その際、修正作業の効率を考慮した付与範囲について整理する。 各小論文に対して評価の対象として付与された表現の中から同義表現を抽出する方法についてタグと内容から整理する。例えば「グローバリゼーションの光と影」の課題1では「光」タグに対する表現を集めた場合は同義表現が収集できるが、「批判的思考」の課題3における「実例」タグを付与している箇所では取り上げる事例が各小論文で異なるため、同義表現が得られる場合が少ない。このようにどのようなタグに対して同義表現が存在するか分析する。また、同義表現を集めた場合に、述語項構造の観点から表現がどの程度似ているのかについて分析する。述語と意味役割を基本として同義表現を捉えられる範囲を調べることで、言い換えがどの程度の範囲か文の構造から整理することが期待できる。 上記で構築した小論文データを利用することで採点手法を改善する方法について検討する。各課題に対して、ルーブリックで指示された内容に関連する部分がタグづけされていることから、人手の採点の際に参考になることが期待される。よって今回設定したタグの自動付与法について検討する。 小論文の自動採点精度を向上させる手法について研究する。更新された大規模言語モデルが複数提案されており、利用可能な状態である。新しい言語モデルを利用することで、採点精度がどの程度向上できるかについて明らかにする。
|
Research Products
(3 results)