今年度は,初年度に提案した英語の語彙問題の自動作成手法をシステムとして実装し,システムで作成した質問の評価実験を中心に研究をおこなった.対象語とその語義の1つを入力として,システムは文章中の対象語に最も近い意味を求める多肢選択問題を作成する.評価にあたっては,作成した問題が(1)英語学習者の語彙力をどの程度正しく測定できるか,(2)人間が作成した問題と比べてその質は十分かの2つの側面を考慮して評価をおこなった. 評価(1)では,自動作成した問題と人間が作成した質問をそれぞれ25問用意し,これを79名の大学生に解かせ,各学生の英語標準テスト(TOEIC,TOEFL,CASEC)の得点と比較し,両者の関係についていくつかの観点から分析をおこなった.まず,自動作成した問題と人間が作成した問題の成績には0.63と正の相関があることを確認した.次に古典的テスト理論に基づき,difficulty indexとdiscrimination indexを計算して項目分析をおこなった.さらに,Neural test理論に基づき,item category reference profileを正解,ディストラクタについて計算した.その結果,いずれの理論においても自動作成した問題が学生の英語語彙能力を測る上で遜色がないことがわかった. 評価(2)では自動作成した問題と人間が作成した問題を25問ずつをランダムに混合し,8名の英語教師に主観評価をさせた.評価項目としては作成者が機械が人間かどの区別できるか,その判断の根拠となる問題の特徴は何か,問題が実試験に使用可能かといった観点を用意した.その結果,25問中18問についてはそのまま実試験に使用可能であるという判定を得た. 以上,提案手法によって自動作成された問題は,英語の語彙能力を測定する上で人間が作成した問題と同等のレベルであることを確認した.
|