2018 Fiscal Year Research-status Report
ルーブリックに基づくレポート自動採点支援システムの精度向上と教育現場での活用
Project/Area Number |
18K11589
|
Research Institution | Nagoya University of Foreign Studies |
Principal Investigator |
山本 恵 名古屋外国語大学, 現代国際学部, 教授 (90373175)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 自動採点 / 大学生レポート / ルーブリック / LDA |
Outline of Annual Research Achievements |
本研究では、授業形式の教育現場レベルでの活用を視野に、学生・教員双方に役立つLMS(Moodle)上のレポート自動採点支援システムを構築している。採点にあたってレポート採点用ルーブリックを策定し、各評価項目について自動採点を行う。平成30年度は採点精度の向上を目指して、各評価項目を見直し、特に論作文スキルの評価項目である語彙水準評価値の採点方法の改善を行った。 語彙水準は、レポート内の意味語(名詞、動詞、形容詞、副詞)を抽出し、単語毎に語彙レベルを割り当て、レポート全体の平均語彙レベルを評価値として算出している。各単語の語彙レベルは、砂川らの日本語教育語彙表の「語彙の難易度」を参照しているが、大学生の基礎教育授業のレポートで使用される単語、特に高レベルの単語が十分に網羅されていないため採点から漏れ、全体の採点精度に影響を及ぼしている。そこで網羅性の高い日本語語彙レベル辞書の構築手法を提案して、採点改善状況および辞書の精度を確認した。提案した辞書構築手法は、まず、大学生のレポートに出現する広範な単語を網羅する大規模コーパスに、トピックモデル、本研究では潜在ディレクレ配分法(LDA)を適用し,出現確率を指標とした難易度を算出する。希少性が高く出現確率を求めることが困難な単語については、単語頻度を指標として求める単語重要度TF-IDF値を用いて補完し、難易度を求める。現時点では日本語Wikipediaをもととなるコーパスとして、日本語語彙レベル辞書を構築している。学生レポートデータを用いた評価実験を行った結果、単語の採点漏れが解消できること、LDAとTF-IDFの組み合わせにより算出した難易度がLDAあるいはTF-IDFのみから算出するよりも有効であることを示している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成29年度(申請時)でのプロトタイプシステムは、文法や読みやすさ、語彙力などの論作文スキルに関わる部分、および内容評価の一部を自動採点し、総合スコアを予測評価するが、予測精度の向上が課題となっていた。近年の自然言語処理技術をベースに採点手法を比較検討して精度を高め、研究最終年度には、提案する採点モデルの精度の改善を終え、教員・学生双方で試用する予定である。 研究計画では、平成30年度(初年度)に予測精度向上を目指して、自動採点評価項目の1つである語彙力評価に用いる語彙レベル辞書を構築すること、また、内容や論理性の採点部の評価方法の検討を進める予定であった。しかし語彙レベル辞書の構築における提案手法の根幹となるトピックモデル(LDA)の適用は、もととなるコーパスのサイズが大きい程、指数的に処理時間が増えるため、実験の遂行に予定よりも多くの時間を費やすこととなった。また辞書の精度を示すための他の手法との比較で、さらに時間を要することになり、初年度は辞書構築に終始した。したがって、もう1つの課題である内容や論理性の採点部の評価方法の検討については令和元年度に送ることとなり、申請時の研究計画からは遅れ気味である。
|
Strategy for Future Research Activity |
研究2年目である令和元年度は、レポートの記述内容や論理性の評価に踏み込んだ採点を行い、精度の向上を目指す。 現在は、レポートの記述内容の自動採点については、ルーブリックの評価観点「Content:課題の理解度と解答(記述)内容の妥当性」として、教員が提示した論題と記述文のコサイン類似度を求め、値が高い程、配点を高くしている。しかし論題が短い、あるいは情報が少ない場合は、高い採点精度を見込むことは困難である。そこで他の手法を検討し、採点精度の向上を目指す。具体的には、レポートの論題やキーワード、シラバスなどのテキストデータからカテゴリを推測し、これらと同じカテゴリの文書ベクトルとの類似度により採点する手法を提案する予定である。 また、論理性の自動採点は行っておらず、論作文スキルや読みやすさの自動採点結果から予測するにとどまっている。そこでニューラルネットワークを利用して、理論的展開が高低どちらのレベルに分類されるかという確率を基に採点を試みる。 これらの採点精度は手動採点結果との比較により求めている。また、様々な手法と比較検討する際、採点結果の学習データが必要となる。そこで、複数教員に協力を依頼し、策定したレポート採点用ルーブリックに基づいて採点してもらいサンプルを集める。この際、当初の計画にはなかったが、レポート採点用ルーブリックの改善に向けた意見を求める。また教員が採点時にどのような点を重視するのか、共通項として挙げられるのはどこか、などを、明らかにするための調査を行うことを計画している。
|
Causes of Carryover |
以下の3点の理由による。 ・平成30年度の国内発表は勤務地に近い場所での開催で、宿泊費や交通費がほとんど不要であった。また海外発表は中国で行われ、予定よりもかなり安価に済んだ。 ・研究が少し遅れ気味で、Deep Learning等の処理を行う段階が次年度送りになったこと、LMSは研究協力者の構築したシステムの拡張として開発を続け、あらたなワークステーションの購入を次年度に見送った。 ・開発に利用しているパブリッククラウドサービス(AMS)は従量制で、現段階での利用は安価に済んでいる。
|
Research Products
(3 results)