語彙学習のための大規模 Data-Driven Learning システム開発

研究課題

研究課題/領域番号	23K21732
補助金の研究課題番号	21H03564 (2021-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2021-2023)
応募区分	一般
審査区分	小区分62030:学習支援システム関連
研究機関	東京工業大学 (2024) 大阪大学 (2021-2023)
研究代表者	荒瀬由紀東京工業大学, 情報理工学院, 教授 (00747165)
研究分担者	内田諭九州大学, 言語文化研究院, 准教授 (20589254) 梶原智之愛媛大学, 理工学研究科(工学系), 講師 (70824960)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	17,030千円 (直接経費: 13,100千円、間接経費: 3,930千円) 2024年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2023年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2022年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2021年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
キーワード	Data-Driven Learning / CEFR / テキスト平易化 / 言い換え生成 / 英文難易度推定 / パラフレーズ / 言語教育 / 語彙学習
研究開始時の研究の概要	本研究では語彙学習に対する Data-Driven Learning (DDL) を実現し、英語教員や学生がWebブラウザから自由に利用できる学習プラットフォームを構築する。DDLを語彙学習に用いるには、学習項目を含む文を適切な難易度で多量に観察し、段階的に難易度の高い文を学習することが効果的である。そこで本研究では、Common European Framework of Reference for Languages に準拠した英文の難易度指標を策定し、難易度を調整する言い換えを自動的に行うことで、様々な難易度の用例を大規模に獲得する。
研究実績の概要	本研究では語彙学習に対する Data-Driven Learning (DDL) を実現し、英語教員や学生がWebブラウザから自由に利用できる学習プラットフォームを構築する。DDLを語彙学習に用いるには、学習項目を含む文を適切な難易度で多量に観察し、段階的に難易度の高い文を学習することが効果的である。しかしこの条件を満たす英文はWeb上にもごく僅かしか存在せず、また英文の難易度判定の指標も非自明である。そこで本研究では、Common European Framework of Reference for Languages（CEFR）に準拠した英文の難易度指標を策定し、難易度を調整する言い換えを自動的に行うことで、様々な難易度の用例を大規模に獲得する。 2021年度に約2万文の英文に対しCEFRレベルを付与したコーパス（CEFR-SP）を構築したが、当該年度はその詳細な分析を実施し、各CEFRレベルの言語的特性を明らかにした。さらにCEFR-SPコーパスについて、異なる難易度の言い換え文を作文するクラウドソーシングを実施し、パラレルコーパスの作成に着手した。 CEFR-SPコーパスを用いて高精度な英文難易度推定モデルを構築、評価実験を実施した成果を論文としてまとめた。当論文は自然言語処理における最重要国際会議の一つであるthe Conference on Empirical Methods in Natural Language Processing (EMNLP) に採択され、発表済みである。さらに、既存のテキスト平易化コーパスを用いて強化学習による英文難易度変換モデルを構築、評価実験を実施した成果を論文としてまとめ、国際会議である the Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing（AACL-IJCNLP）にて発表した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由 2021年度に約2万文の英文に対しCEFRレベルを付与したCEFR-SPコーパスを構築したが、当該年度はその詳細な分析を実施した。文長のような基礎的な統計量、構文木の深さや単語の品詞分布などの文法的特性、単語の文字列長やCEFRレベルなどの語彙的特性という、文書の難易度推定における代表的な指標を計測した。そして各CEFRレベルの文を特徴づける指標の特定および隣接レベルの識別に有効な指標を特定した。さらに各CEFRレベルにおける典型的な文の抽出と分析を行った。本成果は国際ジャーナルに投稿中である。 CEFR-SPコーパスについて、異なる難易度の言い換え文を作文するクラウドソーシングを実施し、パラレルコーパスの作成に着手した。2023年度はこのパラレルコーパスの拡充に引き続き取り組む。またCEFR-SPコーパスを用いて高精度な英文難易度推定モデルを構築、評価実験を実施した成果を論文としてまとめた。当論文は自然言語処理における最重要国際会議の一つであるthe Conference on Empirical Methods in Natural Language Processing (EMNLP) に採択され、発表済みである。さらに、既存のテキスト平易化コーパスを用いて強化学習による英文難易度変換モデルを構築、評価実験を実施した成果を論文としてまとめ、the Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing（AACL-IJCNLP）にて発表した。
今後の研究の推進方策	本研究は語彙学習のために様々な難易度の用例を潤沢に提供する大規模DDLシステムを開発する。研究目的を達成するため、(i) 英文難易度付きパラレルコーパスの構築、(ii) 難易度調整言い換えモデルの開発、の二つの研究課題に取り組む。(i) では、Common European Framework of Reference for Languages (CEFR) に準拠した難易度を付与したパラレルコーパスを構築し、英文言い換えモデルの構築に活用できるよう整備する。(ii) では、オーセンティックな英文を自動的に言い換えるモデルを構築し、scaffolding を可能とする様々な難易度の用例を獲得する。 2023年度は以下の課題に取り組む計画である。 (i) 英文難易度付きパラレルコーパス構築 2022年度には、それまでに構築した約2万文のCEFR難易度付き英文に対し、言い換え文を作文しCEFRレベルを付与することで、難易度付きパラレルコーパスを構築した。2023年度はこのコーパスをさらに拡張し、約4万文対のパラレルコーパス構築を目指す。 (ii) 難易度調整言い換えモデルの開発難易度調整言い換えモデルの構築には、ある難易度の英文を別の難易度の英文に言い換えた文対を収集したパラレルコーパスが必要である。しかし大規模なパラレルコーパス構築は非常にコストが高い。そこでこれまでに構築した言い換え生成モデルと難易度自動推定モデルを用いて、疑似訓練データを自動構築する。本疑似データを用いた言語生成モデルの追加訓練、さらに少量のパラレルコーパスによる転移学習により、少量のデータセットで高品質な難易度別言い換え生成を実現する。

報告書

(2件)

2022 実績報告書
2021 実績報告書

研究成果
(7件)

すべて 2023 2022 2021 その他

すべて学会発表 (6件) (うち国際学会 5件) 備考 (1件)

[学会発表] 問題タイプを考慮した英単語穴埋め問題の不正解選択肢の自動生成2023
- 著者名/発表者名
  吉見菜那, 梶原智之, 内田諭, 荒瀬由紀, 二宮崇
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] CEFR-Based Sentence Difficulty Annotation and Assessment2022
- 著者名/発表者名
  Yuki Arase, Satoru Uchida, and Tomoyuki Kajiwara
- 学会等名
  The Conference on Empirical Methods in Natural Language Processing (EMNLP)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Controllable Text Simplification with Deep Reinforcement Learning2022
- 著者名/発表者名
  Daiki Yanamoto, Tomoki Ikawa, Tomoyuki Kajiwara, Takashi Ninomiya, Satoru Uchida, and Yuki Arase
- 学会等名
  The 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (AACL-IJCNLP)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] JADE: Corpus for Japanese Definition Modelling2022
- 著者名/発表者名
  Han Huang, Tomoyuki Kajiwara, Yuki Arase
- 学会等名
  13th Edition of its Language Resources and Evaluation Conference
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Definition Modelling for Appropriate Specificity2021
- 著者名/発表者名
  Han Huang, Tomoyuki Kajiwara, Yuki Arase
- 学会等名
  2021 Conference on Empirical Methods in Natural Language Processing
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Toward constructing a corpus with CEFR-based sentence level annotations2021
- 著者名/発表者名
  Satoru Uchida, Yuki Arase and Tomoyuki Kajiwara
- 学会等名
  Workshop on Building CEFR-graded resources for second and foreign language learning
- 関連する報告書
  2021 実績報告書
- 国際学会
[備考] CEFR-SP
- URL
  https://github.com/yukiar/CEFR-SP
- 関連する報告書
  2022 実績報告書

語彙学習のための大規模 Data-Driven Learning システム開発

研究代表者

荒瀬 由紀 東京工業大学, 情報理工学院, 教授 (00747165)

17,030千円 (直接経費: 13,100千円、間接経費: 3,930千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] 問題タイプを考慮した英単語穴埋め問題の不正解選択肢の自動生成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] CEFR-Based Sentence Difficulty Annotation and Assessment2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Controllable Text Simplification with Deep Reinforcement Learning2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] JADE: Corpus for Japanese Definition Modelling2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Definition Modelling for Appropriate Specificity2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Toward constructing a corpus with CEFR-based sentence level annotations2021

著者名/発表者名

学会等名

関連する報告書

[備考] CEFR-SP

URL

関連する報告書

荒瀬由紀東京工業大学, 情報理工学院, 教授 (00747165)