2021 Fiscal Year Annual Research Report
語彙学習のための大規模 Data-Driven Learning システム開発
Project/Area Number |
21H03564
|
Allocation Type | Single-year Grants |
Research Institution | Osaka University |
Principal Investigator |
荒瀬 由紀 大阪大学, 情報科学研究科, 准教授 (00747165)
|
Co-Investigator(Kenkyū-buntansha) |
内田 諭 九州大学, 言語文化研究院, 准教授 (20589254)
梶原 智之 愛媛大学, 理工学研究科(工学系), 助教 (70824960)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | Data-Driven Learning / CEFR / 言い換え生成 / 英文難易度推定 / パラフレーズ |
Outline of Annual Research Achievements |
本研究では語彙学習に対する Data-Driven Learning (DDL) を実現し、英語教員や学生がWebブラウザから自由に利用できる学習プラットフォームを構築する。DDLを語彙学習に用いるには、学習項目を含む文を適切な難易度で多量に観察し、段階的に難易度の高い文を学習することが効果的である。しかしこの条件を満たす英文はWeb上にもごく僅かしか存在せず、また英文の難易度判定の指標も非自明である。そこで本研究では、Common European Framework of Reference for Languages(CEFR)に準拠した英文の難易度指標を策定し、難易度を調整する言い換えを自動的に行うことで、様々な難易度の用例を大規模に獲得する。研究目的を達成するため、(i) 英文難易度指標の策定とコーパス構築、(ii) 難易度調整言い換えモデルの開発、の二つの研究課題に取り組む。計画に基づき研究を実施し、2021年度は以下の成果を達成した。 (i) 英文難易度指標の策定とコーパス構築 時事性の高い英文コーパスからサンプルした文にCEFRレベルを付与することで、英文難易度コーパスを構築した。豊富な英語教育経験を持つアノテータにより、約2万文の英文について質の高いCEFRレベルアノテーションを完了した。 (ii) 難易度調整言い換えモデルの開発 難易度調整言い換えモデルの構築には難易度の異なるパラレル文からなるコーパスが必要となる。大規模なパラレルコーパス構築は人的・時間的コストが高く、困難である。そこで本研究では事前学習済み系列変換モデルを少量の良質なコーパスを用いて再訓練する転移学習を行う。2021年度は既存のテキスト平易化コーパスを用いて強化学習による英文難易度変換の有効性を確認した。また(i)で構築したコーパスを用いて強化学習で必要となる英文難易度推定モデルを構築した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究では(i) 英文難易度指標の策定とコーパス構築、(ii) 難易度調整言い換えモデルの開発、の二つの研究課題に取り組む。計画に基づき研究を実施し、2021年度は以下の成果を達成した。 (i) 英文難易度指標の策定とコーパス構築 時事性の高い英文コーパスからサンプルした文にCEFRレベルを人手で付与することで、英文難易度コーパスを構築した。豊富な英語教育経験を持つアノテータにより、約2万文の英文について質の高いCEFRレベルアノテーションを完了した。分析の結果、アノテーションされたラベルは高い一致率を持つことを確認した。 (ii) 難易度調整言い換えモデルの開発 本研究では事前学習済み系列変換モデルを難易度の異なるパラレル文からなる少量であるが良質なコーパスを用いて再訓練する転移学習を行う。転移学習により難易度調整に必要な基礎的な言い換えパターンを学習し、DDLに向けた用例を生成する。 2021年度は(i) で構築したコーパスを用いて、難易度調整言い換えモデルで必要となる英文難易度推定モデルを構築した。難易度が最も高い、もしくは最も低い文は希少であり、難易度分布に大きなばらつきが生じる。既存研究ではこのような難易度ラベルのばらつきにより、推定性能が下がる問題があることが明らかとなった。そこで本研究ではベクトル空間への難易度ラベル埋め込みと、ラベルベクトルとの距離により分類を行うモデルを開発し、マクロF1で84.5%という高い難易度推定性能を達成した。また既存のテキスト平易化パラレルコーパスを用いて強化学習による英文難易度変換モデルを構築し、本研究における強化学習の有効性を確認した。
|
Strategy for Future Research Activity |
本研究では語彙学習のために様々な難易度の用例を潤沢に提供する大規模DDLシステムを開発する。研究目的を達成するため、(i) 英文難易度指標の策定とコーパス構築、(ii) 難易度調整言い換えモデルの開発、の二つの研究項目に取り組む。2022年度は研究項目 (i), (ii)について、以下の課題に取り組む計画である。 (i) 英文難易度指標の策定とコーパス構築 2021年度に2万文の英文に対しCEFRレベルを付与し、高品質な英文難易度アノテーションコーパスを構築できた。2022年度は本コーパスの詳細な分析を実施し、各CEFRレベルの特性を明らかにする。またそれら特性に基づき、英文難易度指標の策定を行う。 (ii) 難易度調整言い換えモデルの開発 難易度調整言い換えモデルの構築には、ある難易度の英文を別の難易度の英文に言い換えた文対を収集したパラレルコーパスが必要である。しかし大規模なパラレルコーパス構築は非常にコストが高い。そこで必要なパラレルコーパス量を削減する転移学習と、難易度推定モデルを直接学習に用いる強化学習を組み合わせた手法により少量のパラレルコーパスで高品質な言い換え生成を実現する。2021年度に強化学習の有効性を確認できたため、2022年度は事前学習済み系列変換モデルに対する転移学習と、2021年度に開発した難易度推定モデルを統合した強化学習手法を開発する。また並行して、2021年度に作成した英文難易度コーパスを拡張し、転移学習および手法の評価に用いるパラレルコーパスを構築する。英語母語話者に難易度変換の作文を依頼することで、高品質なパラレルコーパス構築を目指す。
|