2021 Fiscal Year Research-status Report
語学テストにおける自然言語処理手法を活用した敵対項目検出手法の開発と評価
Project/Area Number |
20K20821
|
Research Institution | Nagoya University |
Principal Investigator |
光永 悠彦 名古屋大学, 教育発達科学研究科, 准教授 (70742295)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | 語彙類似度 / 機械学習 / 語彙テスト / 英語学習 / 日本語学習 / 項目バンク |
Outline of Annual Research Achievements |
本研究においては、一つのテスト版の中で互いにヒントとなる問題項目のペアを「敵対項目」と考え、膨大なテスト問題データベースの内容を自動的に分析し、敵対項目ペアを検出する手法を検討することが主な目的となっている。敵対項目を検出するために、語彙の類似度を数値により検討するアルゴリズムを用いるが、これらは機械学習の手法を応用しており、PCによる機械学習の計算過程を要する。また、機械学習のために膨大な言語コーパスも必要とする。 研究期間2年目においては、日本語テスト及び英語テストにおいて、類似度に基づく敵対項目の違いにより、実際のテストでどの程度のスコアの違いがみられるか、あるいは項目ごとの困難度等の特性にどのような影響がみられるかを検討した。題材とした問題が大学生向けの英語・日本語テストであったため、大学生を対象としたフィールドテストを行い、項目困難度の違いや局所依存性(受験者の能力の違い以外の要因によって、ある項目に正答するか否かが、別の項目の正誤に影響する傾向)を探った。この結果、英語に比べて日本語の場合において、影響の大きさが大きい傾向が見られた。 この結果を踏まえ、検出された敵対項目の影響により、項目特性等の評価結果に違いがみられることが示唆されたが、一方で、この研究で用いた類似度評定結果は特定の類似度推定手法や類似度の学習に用いたコーパスに依存している可能性が指摘された。そのため、類似度評定の手法を変えることにより、科目間での影響の大きさが変わるかどうかについて、再度検討を行うこととした。ただし、当初予定していた研究期間の内で完了することができず、次年度に研究期間を延長することとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
前述の通り、類似度評定の手法を変える研究を行い、改めて敵対項目の評価を行うプロセスを本年度で予定していたが、(1)研究に用いるために最新の類似度評価アルゴリズムを用いるにあたり、新たにPC(ワークステーション)を購入する予定であったが、世界的な半導体不足の影響により納期が年度内に間に合わないことが判明したこと、(2)類似度評定の結果、敵対項目と判断された項目のペアを含んだテスト版を作成し、実際の大学生に出題する「検証フェーズ」を経る必要があるが、大学において新型コロナウイルス感染症の影響で外部の研究者によるデータ収集が困難となっていること、の2点により、研究の進捗が停滞している。 ただし、類似度評定の機械学習のために、高性能のPCを要しない既存の類似度アルゴリズムによる検討を並行して行っている。また、特に英語の敵対項目検出にあたって、英語母語話者が日常的に生成するコーパスを用いていたが、英語非母語話者にとってなじみのない語彙が頻出するコーパスを用いて類似度を学習すると、英語学習者向けのテスト項目に出現する語彙の評定になじまない可能性があった。そのため、英語学習者向けのテキストの電子データを購入・収集している。あわせて、日本語コーパスの見直しも行っている。
|
Strategy for Future Research Activity |
研究のうち「言語コーパスの見直し」及び「機械学習のアルゴリズムの検討」については、必要な資材(PC、コーパス等)が揃った段階で、前述の機械学習を再度行い、敵対項目として検出されるバリエーションが変わるかどうかを検討する。さらに、敵対項目を含んだテスト版を作成し、大学生に出題してみて、結果を分析する。これまでは対面形式で、研究者が大学に出向いて紙に印刷されたテスト版を用いて実施する計画であったが、感染状況によってはオンライン形式で解答を収集できないかを併せて検討する。 並行して、言語コーパスの種類について、さらなる見直しを行う。また機械学習アルゴリズムだけではなく、同一のアルゴリズムの中で複数の条件を用いて評価された類似度を統合するアプローチについても、その方法等を再検討する。単語単位ではなく、文単位での類似性を評価する機械学習が提案されてきている中で、そのような方法を活用できるかどうかも併せて検討していく。
|
Causes of Carryover |
研究実施のうえで機械学習の手法についてさらなる探索が必要となり、本年度の研究計画において、データ分析に使用するためにPC(ワークステーション)を新規に購入しようとしたが、世界的な半導体不足の影響により必要とする性能のPCを調達することが年度内に完了しなかった。また、機械学習の改良結果をふまえ、学生に対して調査を行う計画があったが、これも次年度に持ち越しとなった。次年度使用額については、PCを購入する費用と調査費用に充てる予定である。
|
Research Products
(1 results)