深層学習自動採点技術と項目反応理論を用いた異なる記述式テストの共通尺度化

Research Project

Project/Area Number	23K17585
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 9:Education and related fields
Research Institution	The University of Electro-Communications
Principal Investigator	宇都雅輝電気通信大学, 大学院情報理工学研究科, 准教授 (10732571)
Project Period (FY)	2023-06-30 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000) Fiscal Year 2025: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000) Fiscal Year 2024: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000) Fiscal Year 2023: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Keywords	テスト理論 / 項目反応理論 / 深層学習 / 自然言語処理 / 教育測定
Outline of Research at the Start	近年広く活用されている記述・論述式テストには，評価者バイアスの影響によって評価の信頼性が低下してしまう問題がある．この問題の解決法のひとつとして研究代表者は，評価者のバイアスの影響を取り除いて受験者の能力スコアを標準化できる数理技術の研究に長年取り組んできた．しかし，現時点ではこの技術を用いても複数の異なるテスト（異なる受験者集団や評価者集団で構成された複数のテスト）の結果は標準化できず，公正な評価を実現できない．そこで本研究では，研究代表者が研究してきた数理技術に加えて，近年発展が目覚ましい深層学習を用いた自動採点技術を活用することで，複数の異なるテストの結果を標準化する技術を開発する．
Outline of Annual Research Achievements	近年広く活用されている記述・論述式テストには，採点コストの高さや評価者のバイアスの影響による評価の信頼性低下などの問題が残る．これらの問題の解決法のひとつとして研究代表者は，項目反応理論(IRT)と呼ばれる確率・統計手法を拡張し，人間評価者のバイアスや採点ミスの影響を取り除いて受験者の能力スコアを標準化できる技術を長年研究してきた．しかし，現状ではこの技術を用いても，(状況a)異なる評価者集団が異なる受験者集団を採点する場合や，(状況b)異なるテスト問題を異なる受験者集団に出題する場合には，スコアの標準化を行うことができない．このような状況下では，複数のテストのスコア尺度を共通化する「等化(Equating)」という操作を行わないと，合否判断を含む様々な意思決定に重大な誤りが生じうる．一般に等化を実現するためには，異なるテスト間に共通する受験者や評価者，問題を一定数用意する必要がある．しかし，実際には運用上の様々な制約から，必ずしも十分な数の共通受験者や共通評価者，共通問題が用意できない場合が多い．そこで本研究では，人間の評価者に加えて自動採点技術を活用することで，共通の受験者や人間評価者，問題を用意せずとも(あるいはそれらを限りなく少なくして)IRTに基づく等化を実現することを目指す．この目標に対して，令和5年度は，（状況a）に対する等化を実現するために，最先端自動採点モデルの構築と実験用データセットの収集を行なった．さらに，構築した自動採点モデルを用いた等化手法の開発と収集したデータを用いた有効性評価を行った．成果は複数の国内学会（言語処理学会や人工知能学会など）と国際会議IMPSで発表した．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 当初予定では，（状況a）に対する等化手法の開発準備のために最先端自動採点モデルの構築と実験用データセットの収集までを目標としていた．しかし，実際には，上述の通り，(状況a)に対する提案手法の開発と収集したデータを用いた有効性評価，さらに国内外での学会発表まで進めることができた．このことから，「当初計画以上に進展している」と評価した．
Strategy for Future Research Activity	令和5年度に開発した(状況a)に対する等化手法に改良を加え，より柔軟なデザインで高精度な等化を達成できる手法を開発する．令和5年度に開発した手法では，等化の基準となる受検者・評価者集団（基準集団）と等化を行う対象の受検者・評価者集団（等化対象群）のそれぞれにおいて，各受検者に最低2名以上の評価者が割り当てられていないと集団間の等化が実現できなかった．これは，先にそれぞれの集団の得点データにIRTを適用してパラメータを推定し，その後，自動採点モデルの予測値を基準として集団間のパラメータを調整（等化）するという手続きを採用したためである．これに対し改良手法では，まず基準集団のデータから先に自動採点モデルを構築し，等化対象群のIRTパラメータを推定する際に自動採点モデルの予測値をベイズの枠組みで組み込む．これにより，等化対象群の各受検者に対する評価者数が1名であっても等化を行うことができると期待できる．令和6年度は，この手法を実装し，その有効性を評価する．さらに，令和5年度の研究成果を査読付き論文誌に投稿し，それと並行して，上記の拡張手法を国内外の研究会で発表することを目指す．

Report

(1 results)

2023 Research-status Report

Research Products
(6 results)

All 2024 2023

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (4 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Trait-based Automated Essay Scoring Using Multidimensional Item Response Theory and Deep Neural Networks2023
- Author(s)
  柴田拓海、宇都雅輝
- Journal Title
  
  電子情報通信学会論文誌D 情報・システム
  
  Volume: J106-D Issue: 1 Pages: 47-56
- DOI
  10.14923/transinfj.2022JDP7007
- NAID
  130008116647
- ISSN
  1880-4535, 1881-0225
- Year and Date
  2023-01-01
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] Integration of Prediction Scores From Various Automated Essay Scoring Models Using Item Response Theory2023
- Author(s)
  Uto Masaki、Aomi Itsuki、Tsutsumi Emiko、Ueno Maomi
- Journal Title
  
  IEEE Transactions on Learning Technologies
  
  Volume: - Issue: 6 Pages: 1-18
- DOI
  10.1109/tlt.2023.3253215
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] 自動採点技術と項目反応理論に基づくテスト等化を通じた論述式回答評価の高精度化2024
- Author(s)
  荒巻洸太，宇都雅輝
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Research-status Report
[Presentation] Linking method for writing tests using item response theory and automated essay scoring2023
- Author(s)
  Kota Aramaki, Masaki Uto
- Organizer
  International Meeting of the Psychometric Society
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 評価者特性を考慮した項目反応モデルと深層学習自動採点技術に基づく記述式テストの等化手法2023
- Author(s)
  荒巻洸太，宇都雅輝
- Organizer
  日本テスト学会第21回大会
- Related Report
  2023 Research-status Report
[Presentation] 深層学習自動採点技術と項目反応理論を用いた記述，論述式テストの等化手法2023
- Author(s)
  荒巻洸太，宇都雅輝
- Organizer
  第37回人工知能学会全国大会
- Related Report
  2023 Research-status Report

深層学習自動採点技術と項目反応理論を用いた異なる記述式テストの共通尺度化

Principal Investigator

宇都 雅輝 電気通信大学, 大学院情報理工学研究科, 准教授 (10732571)

¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Trait-based Automated Essay Scoring Using Multidimensional Item Response Theory and Deep Neural Networks2023

Author(s)

Journal Title

DOI

NAID

ISSN

Year and Date

Related Report

[Journal Article] Integration of Prediction Scores From Various Automated Essay Scoring Models Using Item Response Theory2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] 自動採点技術と項目反応理論に基づくテスト等化を通じた論述式回答評価の高精度化2024

Author(s)

Organizer

Related Report

[Presentation] Linking method for writing tests using item response theory and automated essay scoring2023

Author(s)

Organizer

Related Report

[Presentation] 評価者特性を考慮した項目反応モデルと深層学習自動採点技術に基づく記述式テストの等化手法2023

Author(s)

Organizer

Related Report

[Presentation] 深層学習自動採点技術と項目反応理論を用いた記述，論述式テストの等化手法2023

Author(s)

Organizer

Related Report

宇都雅輝電気通信大学, 大学院情報理工学研究科, 准教授 (10732571)