研究課題/領域番号 |
23K17585
|
研究機関 | 電気通信大学 |
研究代表者 |
宇都 雅輝 電気通信大学, 大学院情報理工学研究科, 准教授 (10732571)
|
研究期間 (年度) |
2023-06-30 – 2026-03-31
|
キーワード | テスト理論 / 項目反応理論 / 深層学習 / 自然言語処理 / 教育測定 |
研究実績の概要 |
近年広く活用されている記述・論述式テストには,採点コストの高さや評価者のバイアスの影響による評価の信頼性低下などの問題が残る.これらの問題の解決法のひとつとして研究代表者は,項目反応理論(IRT)と呼ばれる確率・統計手法を拡張し,人間評価者のバイアスや採点ミスの影響を取り除いて受験者の能力スコアを標準化できる技術を長年研究してきた.しかし,現状ではこの技術を用いても,(状況a)異なる評価者集団が異なる受験者集団を採点する場合や,(状況b)異なるテスト問題を異なる受験者集団に出題する場合には,スコアの標準化を行うことができない.このような状況下では,複数のテストのスコア尺度を共通化する「等化(Equating)」という操作を行わないと,合否判断を含む様々な意思決定に重大な誤りが生じうる.一般に等化を実現するためには,異なるテスト間に共通する受験者や評価者,問題を一定数用意する必要がある.しかし,実際には運用上の様々な制約から,必ずしも十分な数の共通受験者や共通評価者,共通問題が用意できない場合が多い.そこで本研究では,人間の評価者に加えて自動採点技術を活用することで,共通の受験者や人間評価者,問題を用意せずとも(あるいはそれらを限りなく少なくして)IRTに基づく等化を実現することを目指す. この目標に対して,令和5年度は,(状況a)に対する等化を実現するために,最先端自動採点モデルの構築と実験用データセットの収集を行なった.さらに,構築した自動採点モデルを用いた等化手法の開発と収集したデータを用いた有効性評価を行った.成果は複数の国内学会(言語処理学会や人工知能学会など)と国際会議IMPSで発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初予定では,(状況a)に対する等化手法の開発準備のために最先端自動採点モデルの構築と実験用データセットの収集までを目標としていた.しかし,実際には,上述の通り,(状況a)に対する提案手法の開発と収集したデータを用いた有効性評価,さらに国内外での学会発表まで進めることができた.このことから,「当初計画以上に進展している」と評価した.
|
今後の研究の推進方策 |
令和5年度に開発した(状況a)に対する等化手法に改良を加え,より柔軟なデザインで高精度な等化を達成できる手法を開発する.令和5年度に開発した手法では,等化の基準となる受検者・評価者集団(基準集団)と等化を行う対象の受検者・評価者集団(等化対象群)のそれぞれにおいて,各受検者に最低2名以上の評価者が割り当てられていないと集団間の等化が実現できなかった.これは,先にそれぞれの集団の得点データにIRTを適用してパラメータを推定し,その後,自動採点モデルの予測値を基準として集団間のパラメータを調整(等化)するという手続きを採用したためである.これに対し改良手法では,まず基準集団のデータから先に自動採点モデルを構築し,等化対象群のIRTパラメータを推定する際に自動採点モデルの予測値をベイズの枠組みで組み込む.これにより,等化対象群の各受検者に対する評価者数が1名であっても等化を行うことができると期待できる. 令和6年度は,この手法を実装し,その有効性を評価する.さらに,令和5年度の研究成果を査読付き論文誌に投稿し,それと並行して,上記の拡張手法を国内外の研究会で発表することを目指す.
|
次年度使用額が生じた理由 |
3月下旬の学会出張に関し,年度末の細かな金額調整が困難であったために残額が生じた.残額は令和6年度の学会出張費の一部として利用する.
|