研究実績の概要 |
2022年度の研究では,ルールベースの初期モデル,決定木学習による機械学習モデル,深層学習による機械学習モデルを人間評定者とみなし,評定者スコアと合わせて評価実験を行った。その結果、4種類の評価システムの相関分析を行ったところ,Accuracy, Communicability タスクともに,実際の人間による評価と最も相関の度合いが強かったのは,深層学習モデルによる評価であり,ルールベースの初期モデルや機械学習モデルを上回るスコア予測精度が認められた。しかし,評定者スコアの収集を目的として行った2010調査および2012調査におけるTBWTの受験者やAIシステムの試行および評価結果アンケートへの協力者は共に大学生英語学習者であった。その多くが大学入学から間もない初年次生ではあったが,高校生を対象として開発したTBWTおよびそのシステムの評価実験のデータとしてはその妥当性を再吟味する必要がある。具体的には、1) 「評価エンジン」において全体集計・総合評価が行われる際に,照合するために呼び出す学習モデルのデータベースが十分ではないため,評定結果の安定性に課題がある。システムにより多くの学習用データを読み込ませて,データベース環境を拡大する必要がある,2) 総合評価の段階で,それぞれのタスクの観点別評定をどのような比重で統合するかによっても評定結果が変化することも考慮する必要がある。今後の開発において,システムの試行を繰り返すことによりデータベース環境を拡大し,各タスクの観点別評価における評定の比重を最適化することが求められる,3)深層学習モデルによる評価結果には一定の採点妥当性があることが確認されたが,データは十分であったとは言えない。より多くのテスト受験者とアンケート回答者を確保して,システムによる自動採点・評価の検証および改良の作業を継続して進めていくことが課題となる。
|