2019 Fiscal Year Annual Research Report
Automatic collocation generation for English learners as a foreign language using document similarity analysis
Project/Area Number |
16K00489
|
Research Institution | Tsuda University |
Principal Investigator |
来住 伸子 津田塾大学, 学芸学部, 教授 (50245990)
|
Co-Investigator(Kenkyū-buntansha) |
岸 康人 神奈川大学, 付置研究所, 研究員 (50552999)
田近 裕子 津田塾大学, 総合政策学部, 教授 (80188268)
久島 智津子 津田塾大学, 言語文化研究所, 研究員 (80623876)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 英語学習 / 語彙学習 / 文書類似度 / 文書分類 / 潜在意味解析 / Latent Semantic Analysis / 教材自動作成 / 機械学習 |
Outline of Annual Research Achievements |
この研究では、潜在意味解析(Latent Semantic Analysis)、語頻度(bag of words)、語頻度・逆文書頻度(tf-idf)の3種類の文書類似度評価方法を利用して、英語学習者の興味や習熟度に適した用例を自動生成し、実際に用例を学習者が評価することを目指した。先行研究で、潜在意味解析が、専門用語の多い英語表現の分類に利用できることを確認した。この研究では、英語教育に実用的に利用できることをめざして、対象とする文書集合の大規模化と、文書や用例の難易度の自動分類に取り組んだ。とくに、潜在意味解析による文書類似度評価の高速化と、分野の分類だけでなく、用例の難易度の推定にも取り組んだ。 この研究により、文書類似度計算は、使用ハードウェア、ソフトウェアの改善により、先行研究より高速化した。用例の難易度の推定には、分野の分類とおなじように、文書類似度を利用することにした。具体的には、難易度の異なる複数の文書集合への類似度から難易度を推定することにした。その結果、文書集合の種類や大きさが先行研究より増大した。そのため、潜在意味解析の計算に使用できる行列の大きさの限界を超えたので、ほかの類似度計算方法、たとえば、word2vec、phrase2vec などの浅い機械学習による類似度計算方法が有望であることが推定できた。 上記の作業を行ったため、評価ツールの完成が遅れた。そのため、研究期間内に自動生成した用例の学習者による評価を実施できなかった。研究期間終了後、学内研究予算を利用して、学習者による用例の評価を実施する予定である。また、この研究における調査を通じて、同様の手法、とくに機械学習を利用した手法を、英文用例や英語学習教材の自動生成に使用する研究はほとんどないことを確認できたので、今後も同じテーマで研究を継続したい。
|