AIを活用した英文ライティング自動評価採点システムの開発
Project/Area Number |
20K00900
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02100:Foreign language education-related
|
Research Institution | Meiji Gakuin University |
Principal Investigator |
杉田 由仁 明治学院大学, 文学部, 教授 (70363885)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
|
Keywords | ライティング・テスト / AI / 自動採点 / 採点妥当性 / スコア予測精度 / システムAI化 / 深層学習 / 浅い機械学習 / 性能評価 / データ収集 / システム改修 / ライティング評価 / AI (人工知能) |
Outline of Research at the Start |
本研究は「AIを活用した英文ライティング自動評価採点システムの開発」を最終目的とする。データにもっとも適合したモデルを選択し、そのモデルが新たなデータに対してどのくらい性能を発揮するのかを測定し、評価する。そのような性能評価において「高性能」と判定されたモデルにより大規模なデータ収集を行い、「深層学習」から「深層強化学習」へと進めていく。こうした解析手法により、自動評価採点システムのAI化を達成し、信頼性・実用性の高い自動評価採点システムの完成を目ざす。
|
Outline of Annual Research Achievements |
前年度までの研究で,同一サンプルの人間評定者による評価,ルールベースの初期モデルによる評価,機械学習モデルによる評価, 深層学習モデルによる評価という4種類の評価結果を分析し,下記 (1)~(4) を今後の課題として確認した。 (1)深層学習モデルにより,人間により近い評定が行われる仕様になったが,システムにより多くの学習用データを読み込ませて,データベース環境を拡大する必要がある。(2)総合評価の段階で,それぞれのタスクの観点別評定をどのような比重で統合するかによっても評定結果が変化することも考慮する必要がある。(3)深層学習モデルによる評価が,ラッシュモデルに適合する評定結果であったことは確認されたが「予期しないCommunicability タスク評定」が出現したので,追検証を行う必要がある。(4)Accuracy, Communicabilityの予測スコアと外在基準としたCriterion スコアとの相関分析により,深層学習モデルによる評価はCriterion のパフォーマンスを一定程度反映しており,基準関連妥当性を持つことが確認された。しかし,採点妥当性の検証については限定的であったため,継続研究に取り組む必要がある。 上記課題の解決に向けて,2022年10月~2023年8月に東京都,神奈川県および愛知県内の高校生の参加協力を得て1,228サンプル (Accuracyタスク650, Communicabilityタスク578) を収集し,データベース環境の拡大に取り組んだ。これらの学習用データにより,深層学習モデルによる採点の信頼性が向上したかどうかを確かめるために,TBWTがターゲットとする高校生英語学習者のサンプルを活用して,採点妥当性の検証を試みることにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
深層学習モデルによるAIシステムの採点妥当性を,評定の適切性を量的・質的に分析することにより検証を試みた。量的分析の結果,AI を活用した自動評価採点システムによるAccuracyタスクの総合評価には一定の採点妥当性が担保されているが,5つの観点別項目の内,「難語割合」に関しては評定を与えるAIシステムの分割点を見直す必要があることがあり,「語数」「平均文長」「文法誤り率」「単語誤り率」に関しても分割点を部分的に見直す必要があることが示唆された。Communicabilityタスクの総合評価および「平均文長」と「アイディアの数」については採点妥当性が担保されているが,「難語割合」と「アイディアの質」に関しては評定を与えるAIシステムの分割点を見直す必要あることがわかった。さらに,AccuracyおよびCommunicabilityタスクの観点別評価および総合評価,参考解答例に対する回答状況を分析したところ,システムによる評定はいずれも高校生たちにとっても受け入れやすい結果であり,自由記述の質的分析によってもその分析が裏付けられた。
|
Strategy for Future Research Activity |
研究期間の最終年度におけるシステム開発に向けての課題は,Accuracyタスクの「文法誤り率」「入力単語誤り率」「難語割合」,Communicabilityタスクの「難語割合」「アイディアの質」の分割点について再検討を行い,システム処理系統における「統語的分析」と「統語的評価」および「語彙分析」と「語彙レベル評価」の精度をより高めることであると考えられる。分割点を調整したシステムにより,採点妥当性の再検証を試みる予定である。
|
Report
(4 results)
Research Products
(3 results)