2019 年度研究成果報告書

文書類似度を利用した英語学習用例の自動生成

研究課題

PDF

研究課題/領域番号	16K00489
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	学習支援システム
研究機関	津田塾大学
研究代表者	来住伸子津田塾大学, 学芸学部, 教授 (50245990)
研究分担者	岸康人神奈川大学, 付置研究所, 研究員 (50552999) 田近裕子津田塾大学, 総合政策学部, 教授 (80188268) 久島智津子津田塾大学, 言語文化研究所, 研究員 (80623876)
研究期間 (年度)	2016-04-01 – 2020-03-31
キーワード	英語学習 / 文書類似度 / 文書分類 / 潜在意味解析 / 教材自動生成 / 機械学習 / 語彙学習
研究成果の概要	この研究では、潜在意味解析、語頻度、語頻度・逆文書頻度の３種類の文書類似度評価方法を利用して、英語学習者の興味や習熟度に適した用例を自動生成し、実際に学習者が用例を評価することを目指した。使用ハードウェア、ソフトウェアの改善により、先行研究より文書類似度計算を高速化できた。用例の難易度の推定にも、文書類似度を利用することにし、難易度の異なる複数の文書集合との距離から難易度を推定することにした。その結果、文書集合の種類や大きさが先行研究より増大した。そこで、潜在意味解析だけでなく、他の類似度計算方法、word2vecなどの浅い機械学習による類似度評価方法も利用することにした。
自由記述の分野	情報工学
研究成果の学術的意義や社会的意義	この研究は、第2言語として英語を学ぶ学習者に、学習者の興味や習熟度にあった教材を自動生成する研究の一環として行っている。社会人や大学生の英語学習者の場合、本人の仕事や専門分野で実際に使われる表現の習得を効率的に行うことが望ましいが、適した教材（教科書、書籍、動画など）は非常に少ない。一方、Wikipediaや各種オープンコンテンツの普及により、英語テキストは入手しやすくなっている。そこで、情報検索分野で使われている、潜在意味解析、頻度分析などの手法を利用して、大規模テキストデータから、教材の素材となる用例（英語の分離）の自動抽出を行った。