研究課題/領域番号 |
21K00806
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02100:外国語教育関連
|
研究機関 | 久留米工業高等専門学校 |
研究代表者 |
小田 幹雄 久留米工業高等専門学校, 制御情報工学科, 教授 (80300648)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 言語モデル / 統合構造 / 意味構造 / 第二言語習得 / 統語構造 / 外国語教育 / 言語処理 |
研究開始時の研究の概要 |
本研究の概要は、統語構造学習モデルと意味構造学習モデルを統合した言語モデルを構築し、構築した言語モデルをコア技術として、英語を第二言語とする第二言語学習者が、第二言語で文章を作成する際に、オンライン上で、作成中の文章の統語構造と意味構造がわかり、かつ単語の意味上の関連性、前単語や次単語の候補の提示、文法上・意味上の誤りを指摘するWebベースの支援ソフトウエアを開発することである。
|
研究実績の概要 |
本研究では,言語形態論のうち,言語コーパスに基づく統語構造(Syntactic structure)学習モデルと意味構造(Semantic structure)学習モデルを統合した総合的形態論に基づく言語モデルを構築し,第二言語習得者のための言語習得支援に活用することを目的とする. 第1の課題であるBEA2019 Shared Taskの研究結果に基づく,統語構造を獲得する学習法の改良検討については,前年度は,Kanneko et al.のBert-gecモデルを評価検討したが,今年度は,Omelianchuk et alのGECToRを評価検討し,とくに,人工的に合成された大規模な訓練データの品質を改善するために,訓練文を従来の人工的なエラーを挿入する前の原文ではなくGECモデルの予測文がより適切な誤り訂正文であるという仮説を立てて,人工合成訓練データを再構築する方法を提案した.数値実験の結果,提案した再構築された人工合成訓練データによる学習が,元の人工合成訓練データによる学習よりも優れていることが示され,提案手法による人工学習訓練データのみを用いた学習は,第二言語学習者の誤り文章から生成された訓練データと従来の人工合成訓練データを併用した学習と同等の効果が得られることが示された. 第2の課題である入力文章から意味構造を獲得する学習モデルについて,意味構造として抽象的なAMR(Abstract Meaning Representation)の学習モデルをさらに検討し,AMRの言語コーパスであるLDC2020T02を用いて,GECToRによる学習モデルを構築し,統合構造と意味構造の学習モデルの統合の実現性を実験等で確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
統語構造を訓練する学習モデルの学習法として,提案した手法により,大規模な人工合成訓練データの品質を改善することができ,そのために,第二言語学習者の誤り文章から生成された小規模な訓練データに頼らずに,統語構造を訓練する学習法が確立できた.訓練データがさらに少ない意味構造の学習法にもこの手法が適用できること,共通の学習モデルで統語構造および意味構造を訓練できる見通しが立ったことが理由に挙げられる.
|
今後の研究の推進方策 |
第二言語学習者の誤り文章から生成された小規模な訓練データに頼らずに,大規模な人工合成訓練データの品質を改善する統語構造学習のための提案手法を,訓練データがさらに少ない意味構造の学習法に適用し,意味構造学習の精度を向上する.さらに,共通の学習モデルを用いて,統語構造および意味構造を訓練し,高精度に文法上の誤りや意味上の誤りを検出・訂正する学習モデルを構築する.最後に,意味構造学習モデルと統語構造学習モデルを統合した形態論に基づく学習モデルと語彙データベースを用いて,英語文章作成支援アプリケーションを開発する.支援アプリケーションの構想は,第二言語学習者がオンラインで文章作成途中に,単語の意味上・統語上の関連性に基づく統語構造と意味構造の提示,前単語や次単語の候補の提示,文法上・意味上の誤りを検出する等の機能をもつ.なお,英語文章作成支援アプリケーションは,サーバクライアントライブラリをもつPython言語やデータベース等により構成することにより,ネットワーク上で有効に利用できることも検討する.
|