2021 Fiscal Year Research-status Report
ルーブリックに基づくレポート自動採点支援システムの精度向上と教育現場での活用
Project/Area Number |
18K11589
|
Research Institution | Nagoya University of Foreign Studies |
Principal Investigator |
山本 恵 名古屋外国語大学, 現代国際学部, 教授 (90373175)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 自動採点 / ルーブリック / 機械学習 / LDA |
Outline of Annual Research Achievements |
本研究では、授業形式の教育現場での活用を視野に、学生・教員双方に役立つレポート自動採点支援システムを構築している。レポート採点用ルーブリックを策定し、各評価項目について自動採点を行う。 2018年度は採点精度の向上を目指して、各評価項目を見直し、特に論作文スキルの評価項目である語彙水準評価値の採点方法の改善に注視した。 2019年度は、前年度に提案した語彙水準レベル辞書構築モデルにしたがい、年度内最新の日本語Wikipediaコーパスから当該辞書を再構築し、計算した単語難易度の精度の検証と網羅性に関わる改善を進めた。 2020年度は、全年度明らかになった問題に対応するため、自動採点部のルーブリックおよびそれらに連動して計算式などの細部を改善した。またさらに採点精度を上げるためのもう一つの試みとして、大学教育の現場で採点を行っている教員のヒューマンスコアの収集、およびレポート採点用ルーブリックの改善に向けた意見の収集を行った。その結果ある程度共通項を見出すことができた。 2021年度は、前年度に続き、教員の手動採点結果(ヒューマンスコア)を詳細に分析し、評価項目の改善を目指した。採点時にチェックされた改善すべき項目数の合計と、総合得点との相関を求めた結果、相関係数は0.8323と高く、改善すべき点が多いほど,得点が低いことは明らかである。したがって評価項目については現行通りで問題はない。しかしながら教員により、評価時に重視する項目がかなり異なり配点に差が生まれることで、総合得点の差異が見られる。その結果、総合得点が低い(いわゆる悪いと考える)レポートは、教員間で同じであるが、高い(良い)レポートは違いがある、などの知見が得られた。この結果、自動採点システムの精度を高めるための方向性について、新たに考えるべき要素が追加されたことになる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2019年度は初年次に続き、辞書の精度を示すための他の手法との比較で、多くの時間を費やすことになった。辞書作成にはトピックモデルを用いている。Wikipediaデータをもとに辞書を作成する際、結果を得るのに数日以上かかり、十分な試行錯誤をするのに期間を要した。2020年度は2019年度に明らかになった問題に対応するため、自動採点部のルーブリックおよびそれらに連動して計算式など細部を改善した。機械学習のためのヒューマンスコアを収集する際、得た情報を分析し、ルーブリックの改善に活かす作業を行った。これは研究開始当初の計画にプラスとなった分析作業である。2021年度にプラスとなった分析作業に多くを費やすこととなった。 さらに2020年度より、新型コロナウィルスの影響で研究が遅れ気味である。本研究で扱う学生レポートと採点結果、およびアンケート結果は関連する大学の研究倫理規定に従い利用し、研究を遂行しているものである。人権の保護及び法令等の遵守への対応で述べたようにデータの保管についても研究代表者の研究室で管理するものである。所属大学は2020年度オンライン授業を中心としており、大学入構規制がかかる期間は研究が困難であった。また高速に処理をするためのコンピュータの入手が困難となっている。 このような積み重ねにより申請時の研究計画からは遅れ気味となっている。
|
Strategy for Future Research Activity |
研究最終年度である2022年度は、2021年度の研究結果で明らかになった自動採点システムの精度を高める方向性を検討する。2021年度の研究成果(ヒューマンスコアの分析結果)より、評価が低いレポートは教員間で概ね同じであるが、高い評価となるレポートには違いがあることが明らかになった。したがって採点項目は現行通りとしつつ重みづけを検討する、あるいは、自動採点で得られる得点を教員が選択できるようにするなどが考えられる。 さらに昨年度実施予定であったレポートの記述内容や論理性の評価に踏み込んだ採点を行い、精度の向上を目指す必要がある。現段階では当初から用いている現行のコサイン類似度が試行した中では信頼できる結果となっている。そこで2020年度に収集したヒューマンスコアを用いた機械学習による分類を試行し検証を試みる。 また先述した研究の遅れにより、論理性の自動採点は着手できていない。論作文スキルや読みやすさの自動採点結果から分類しスコアを予測しているが、内容の評価と同様、複数教員の採点結果を教師データとしてパラメーターの微調整を行いながら分類精度を高める方法、あるいはニューラルネットワークを利用して、理論的展開が高低どちらのレベルに分類されるかという確率を基に採点するなど、複数の方法を検討予定である。特に後者については高速に処理が可能なコンピュータを入手し、当初計画していた、畳み込みニューラルネットワーク(CNN)を用いた文章の分類や、CNNにより特徴量を自動的に導き出す方法を参考に、内容や論理性部分の採点の手法を検討する予定である。以上のように、内容や論理性部分の自動採点方法の有効な手法を提案したい。
|
Causes of Carryover |
新型コロナウィルス感染による半導体不足で、購入予定であったワークステーションの納入が未確定のため発注を控え、すぐにサーバー契約可能なAWSにシフトしたため、令和3年度は使用しなかった。AWSの可能性や料金体系をさらに確認したうえで、AWS契約拡張によるサーバー利用か、ハードウェア購入かを決め、令和4年度に予算を使用する予定である。
|
Research Products
(1 results)