Project/Area Number |
23K17585
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 9:Education and related fields
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
宇都 雅輝 電気通信大学, 大学院情報理工学研究科, 准教授 (10732571)
|
Project Period (FY) |
2023-06-30 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2025: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2024: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Fiscal Year 2023: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
|
Keywords | テスト理論 / 項目反応理論 / 深層学習 / 自然言語処理 / 教育測定 |
Outline of Research at the Start |
近年広く活用されている記述・論述式テストには,評価者バイアスの影響によって評価の信頼性が低下してしまう問題がある.この問題の解決法のひとつとして研究代表者は,評価者のバイアスの影響を取り除いて受験者の能力スコアを標準化できる数理技術の研究に長年取り組んできた.しかし,現時点ではこの技術を用いても複数の異なるテスト(異なる受験者集団や評価者集団で構成された複数のテスト)の結果は標準化できず,公正な評価を実現できない.そこで本研究では,研究代表者が研究してきた数理技術に加えて,近年発展が目覚ましい深層学習を用いた自動採点技術を活用することで,複数の異なるテストの結果を標準化する技術を開発する.
|
Outline of Annual Research Achievements |
近年広く活用されている記述・論述式テストには,採点コストの高さや評価者のバイアスの影響による評価の信頼性低下などの問題が残る.これらの問題の解決法のひとつとして研究代表者は,項目反応理論(IRT)と呼ばれる確率・統計手法を拡張し,人間評価者のバイアスや採点ミスの影響を取り除いて受験者の能力スコアを標準化できる技術を長年研究してきた.しかし,現状ではこの技術を用いても,(状況a)異なる評価者集団が異なる受験者集団を採点する場合や,(状況b)異なるテスト問題を異なる受験者集団に出題する場合には,スコアの標準化を行うことができない.このような状況下では,複数のテストのスコア尺度を共通化する「等化(Equating)」という操作を行わないと,合否判断を含む様々な意思決定に重大な誤りが生じうる.一般に等化を実現するためには,異なるテスト間に共通する受験者や評価者,問題を一定数用意する必要がある.しかし,実際には運用上の様々な制約から,必ずしも十分な数の共通受験者や共通評価者,共通問題が用意できない場合が多い.そこで本研究では,人間の評価者に加えて自動採点技術を活用することで,共通の受験者や人間評価者,問題を用意せずとも(あるいはそれらを限りなく少なくして)IRTに基づく等化を実現することを目指す. この目標に対して,令和5年度は,(状況a)に対する等化を実現するために,最先端自動採点モデルの構築と実験用データセットの収集を行なった.さらに,構築した自動採点モデルを用いた等化手法の開発と収集したデータを用いた有効性評価を行った.成果は複数の国内学会(言語処理学会や人工知能学会など)と国際会議IMPSで発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初予定では,(状況a)に対する等化手法の開発準備のために最先端自動採点モデルの構築と実験用データセットの収集までを目標としていた.しかし,実際には,上述の通り,(状況a)に対する提案手法の開発と収集したデータを用いた有効性評価,さらに国内外での学会発表まで進めることができた.このことから,「当初計画以上に進展している」と評価した.
|
Strategy for Future Research Activity |
令和5年度に開発した(状況a)に対する等化手法に改良を加え,より柔軟なデザインで高精度な等化を達成できる手法を開発する.令和5年度に開発した手法では,等化の基準となる受検者・評価者集団(基準集団)と等化を行う対象の受検者・評価者集団(等化対象群)のそれぞれにおいて,各受検者に最低2名以上の評価者が割り当てられていないと集団間の等化が実現できなかった.これは,先にそれぞれの集団の得点データにIRTを適用してパラメータを推定し,その後,自動採点モデルの予測値を基準として集団間のパラメータを調整(等化)するという手続きを採用したためである.これに対し改良手法では,まず基準集団のデータから先に自動採点モデルを構築し,等化対象群のIRTパラメータを推定する際に自動採点モデルの予測値をベイズの枠組みで組み込む.これにより,等化対象群の各受検者に対する評価者数が1名であっても等化を行うことができると期待できる. 令和6年度は,この手法を実装し,その有効性を評価する.さらに,令和5年度の研究成果を査読付き論文誌に投稿し,それと並行して,上記の拡張手法を国内外の研究会で発表することを目指す.
|