2021 年度実績報告書

語彙学習のための大規模 Data-Driven Learning システム開発

研究課題

研究課題/領域番号	21H03564
配分区分	補助金
研究機関	大阪大学
研究代表者	荒瀬由紀大阪大学, 情報科学研究科, 准教授 (00747165)
研究分担者	内田諭九州大学, 言語文化研究院, 准教授 (20589254) 梶原智之愛媛大学, 理工学研究科(工学系), 助教 (70824960)
研究期間 (年度)	2021-04-01 – 2025-03-31
キーワード	Data-Driven Learning / CEFR / 言い換え生成 / 英文難易度推定 / パラフレーズ
研究実績の概要	本研究では語彙学習に対する Data-Driven Learning (DDL) を実現し、英語教員や学生がWebブラウザから自由に利用できる学習プラットフォームを構築する。DDLを語彙学習に用いるには、学習項目を含む文を適切な難易度で多量に観察し、段階的に難易度の高い文を学習することが効果的である。しかしこの条件を満たす英文はWeb上にもごく僅かしか存在せず、また英文の難易度判定の指標も非自明である。そこで本研究では、Common European Framework of Reference for Languages（CEFR）に準拠した英文の難易度指標を策定し、難易度を調整する言い換えを自動的に行うことで、様々な難易度の用例を大規模に獲得する。研究目的を達成するため、(i) 英文難易度指標の策定とコーパス構築、(ii) 難易度調整言い換えモデルの開発、の二つの研究課題に取り組む。計画に基づき研究を実施し、2021年度は以下の成果を達成した。 (i) 英文難易度指標の策定とコーパス構築時事性の高い英文コーパスからサンプルした文にCEFRレベルを付与することで、英文難易度コーパスを構築した。豊富な英語教育経験を持つアノテータにより、約2万文の英文について質の高いCEFRレベルアノテーションを完了した。 (ii) 難易度調整言い換えモデルの開発難易度調整言い換えモデルの構築には難易度の異なるパラレル文からなるコーパスが必要となる。大規模なパラレルコーパス構築は人的・時間的コストが高く、困難である。そこで本研究では事前学習済み系列変換モデルを少量の良質なコーパスを用いて再訓練する転移学習を行う。2021年度は既存のテキスト平易化コーパスを用いて強化学習による英文難易度変換の有効性を確認した。また(i)で構築したコーパスを用いて強化学習で必要となる英文難易度推定モデルを構築した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本研究では(i) 英文難易度指標の策定とコーパス構築、(ii) 難易度調整言い換えモデルの開発、の二つの研究課題に取り組む。計画に基づき研究を実施し、2021年度は以下の成果を達成した。 (i) 英文難易度指標の策定とコーパス構築時事性の高い英文コーパスからサンプルした文にCEFRレベルを人手で付与することで、英文難易度コーパスを構築した。豊富な英語教育経験を持つアノテータにより、約2万文の英文について質の高いCEFRレベルアノテーションを完了した。分析の結果、アノテーションされたラベルは高い一致率を持つことを確認した。 (ii) 難易度調整言い換えモデルの開発本研究では事前学習済み系列変換モデルを難易度の異なるパラレル文からなる少量であるが良質なコーパスを用いて再訓練する転移学習を行う。転移学習により難易度調整に必要な基礎的な言い換えパターンを学習し、DDLに向けた用例を生成する。 2021年度は(i) で構築したコーパスを用いて、難易度調整言い換えモデルで必要となる英文難易度推定モデルを構築した。難易度が最も高い、もしくは最も低い文は希少であり、難易度分布に大きなばらつきが生じる。既存研究ではこのような難易度ラベルのばらつきにより、推定性能が下がる問題があることが明らかとなった。そこで本研究ではベクトル空間への難易度ラベル埋め込みと、ラベルベクトルとの距離により分類を行うモデルを開発し、マクロF1で84.5%という高い難易度推定性能を達成した。また既存のテキスト平易化パラレルコーパスを用いて強化学習による英文難易度変換モデルを構築し、本研究における強化学習の有効性を確認した。
今後の研究の推進方策	本研究では語彙学習のために様々な難易度の用例を潤沢に提供する大規模DDLシステムを開発する。研究目的を達成するため、(i) 英文難易度指標の策定とコーパス構築、(ii) 難易度調整言い換えモデルの開発、の二つの研究項目に取り組む。2022年度は研究項目 (i), (ii)について、以下の課題に取り組む計画である。 (i) 英文難易度指標の策定とコーパス構築 2021年度に2万文の英文に対しCEFRレベルを付与し、高品質な英文難易度アノテーションコーパスを構築できた。2022年度は本コーパスの詳細な分析を実施し、各CEFRレベルの特性を明らかにする。またそれら特性に基づき、英文難易度指標の策定を行う。 (ii) 難易度調整言い換えモデルの開発難易度調整言い換えモデルの構築には、ある難易度の英文を別の難易度の英文に言い換えた文対を収集したパラレルコーパスが必要である。しかし大規模なパラレルコーパス構築は非常にコストが高い。そこで必要なパラレルコーパス量を削減する転移学習と、難易度推定モデルを直接学習に用いる強化学習を組み合わせた手法により少量のパラレルコーパスで高品質な言い換え生成を実現する。2021年度に強化学習の有効性を確認できたため、2022年度は事前学習済み系列変換モデルに対する転移学習と、2021年度に開発した難易度推定モデルを統合した強化学習手法を開発する。また並行して、2021年度に作成した英文難易度コーパスを拡張し、転移学習および手法の評価に用いるパラレルコーパスを構築する。英語母語話者に難易度変換の作文を依頼することで、高品質なパラレルコーパス構築を目指す。

研究成果
(3件)

すべて 2022 2021

すべて学会発表 (3件) (うち国際学会 3件)

[学会発表] JADE: Corpus for Japanese Definition Modelling2022
- 著者名/発表者名
  Han Huang, Tomoyuki Kajiwara, Yuki Arase
- 学会等名
  13th Edition of its Language Resources and Evaluation Conference
- 国際学会
[学会発表] Definition Modelling for Appropriate Specificity2021
- 著者名/発表者名
  Han Huang, Tomoyuki Kajiwara, Yuki Arase
- 学会等名
  2021 Conference on Empirical Methods in Natural Language Processing
- 国際学会
[学会発表] Toward constructing a corpus with CEFR-based sentence level annotations2021
- 著者名/発表者名
  Satoru Uchida, Yuki Arase and Tomoyuki Kajiwara
- 学会等名
  Workshop on Building CEFR-graded resources for second and foreign language learning
- 国際学会

2021 年度 実績報告書

語彙学習のための大規模 Data-Driven Learning システム開発

研究代表者

荒瀬 由紀 大阪大学, 情報科学研究科, 准教授 (00747165)

現在までの達成度 (区分)

理由

研究成果

[学会発表] JADE: Corpus for Japanese Definition Modelling2022

著者名/発表者名

学会等名

[学会発表] Definition Modelling for Appropriate Specificity2021

著者名/発表者名

学会等名

[学会発表] Toward constructing a corpus with CEFR-based sentence level annotations2021

著者名/発表者名

学会等名

2021 年度実績報告書

荒瀬由紀大阪大学, 情報科学研究科, 准教授 (00747165)