2020 Fiscal Year Annual Research Report
An Development of automated short-answer scoring system based on deep learning without using supervised scoring data
Project/Area Number |
20H04300
|
Research Institution | The National Center for University Entrance Examinations |
Principal Investigator |
石岡 恒憲 独立行政法人大学入試センター, 研究開発部, 教授 (80311166)
|
Co-Investigator(Kenkyū-buntansha) |
峯 恒憲 九州大学, システム情報科学研究院, 准教授 (30243851)
宮澤 芳光 独立行政法人大学入試センター, 研究開発部, 助教 (70726166)
須鎗 弘樹 千葉大学, 大学院工学研究院, 教授 (70246685)
中川 正樹 東京農工大学, 工学(系)研究科(研究院), 名誉教授 (10126295)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 自動採点 / 自然言語処理 / アンサンブル学習 / 深層学習 |
Outline of Annual Research Achievements |
2017年と2018年に実施された共通テストのための試行調査のうち、国語の記述回答(年ごとに各3問、2年間で計6問)の手書き文字解答データ(各年6万件、2年で12万件)を、農工大・中川教授の研究グループの貢献によってデジタル化した。この文字認識データを、2018年にグーグルが開発したバートと呼ばれる、現在の最新の言語モデルを用いて採点させた。全体の8割の解答を人間が採点した上で、その採点結果を学習させてから残りの解答について自動採点させた。その結果、3段階から7段階の評価で、人間の採点結果と平均で96%が一致した。最も一致率の低い場合でも93%だった。白紙の答案は含まない。 我々の研究の技術的な革新は二つある。一つは手書き文字認識から自動採点までを一気通貫で行い、そこにコンピュータが採点メカニズムを理解するための人手による「補助輪」を一切用いないことである。採点時間に制限のある大規模試験では重要なことである。革新の二つ目は、12万件というこの分野においては極めて大量の採点データの利用である。試験の採点データは一般には非公開とされ、利用できるデータ数は限られている。国内外の過去の研究においても2千件程度である。このような大規模な自動採点は、おそらく世界でも初めてだろう。我々は十分に大きなデータを扱うことにより、採点に必要な標本サイズについても幾つかの知見を得ることができた。 我々の研究は、手書き文字認識から自動採点までを「理解の補助輪なし」で全て行い、「ほぼ人間並み」の精度を達成した。現段階のAIとしては一般的な認識を超えた画期的な成果といってよいだろう。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
我々の試作システムとその性能については、国内で多くの評判をよび、日経新聞に2千字の寄稿が、また日本教育新聞には1面トップで掲載された。またその成果については昨年度だけで、計4件の学会賞を受けた(日本計算機統計学会第35回大会, 学生研究発表賞;Duolingo Award for IMPS 2021;SMASH22 Winter Symposium,準優秀賞;言語処理学会第28回年次大会, 若手奨励賞)。現在、有力な国際会議に向けて論文を投稿中で、その結果を待っている。
|
Strategy for Future Research Activity |
多くの成果を上げたその一方で、現在の技術水準であるところの自動採点の限界も見えてきた。今後目指すべきは、採点データ学習の工夫により精度を上げることに加え、 1.「採点アルゴリズムの汎化(試験問題のタイプが変わってもシステムの採点アルゴリズムを変更しなくても済むようにすること)」 2.多少、採点精度は落ちても「人間による採点データを必要としない、模範解答との近さだけで採点を可能とする仕組み」 3.「文字解答データにアノテーションするのではなく、採点基準を言語モデルに組み入れる仕組み」 の研究だろう。一般の機械学習は(採点データありの)教師あり学習がメインであったろうが、(僅かな採点データを用いる)半教師学習を越えて、(採点データを必要としない)教師なし学習ができるなら、その利用の範囲は大きく広がる。 これら採点エンジンの研究については、九大、千葉大、大学入試センターの各グループでそれぞれ独自のアプローチで解決を図っている。知見の交換による相乗効果が期待される。昨年、zoomによるオンライン打ち合わせを適宜、実施したが、今年も継続する。
|
Research Products
(7 results)