意味構造と統語構造の統合学習を用いた文書作成支援アプリケーションの開発

Research Project

Project/Area Number	21K00806
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 02100:Foreign language education-related
Research Institution	Kurume National College of Technology
Principal Investigator	小田幹雄久留米工業高等専門学校, 制御情報工学科, 教授 (80300648)
Project Period (FY)	2021-04-01 – 2024-03-31
Project Status	Granted (Fiscal Year 2022)
Budget Amount *help	¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000) Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	言語モデル / 統合構造 / 意味構造 / 第二言語習得 / 統語構造 / 外国語教育 / 言語処理
Outline of Research at the Start	本研究の概要は、統語構造学習モデルと意味構造学習モデルを統合した言語モデルを構築し、構築した言語モデルをコア技術として、英語を第二言語とする第二言語学習者が、第二言語で文章を作成する際に、オンライン上で、作成中の文章の統語構造と意味構造がわかり、かつ単語の意味上の関連性、前単語や次単語の候補の提示、文法上・意味上の誤りを指摘するWebベースの支援ソフトウエアを開発することである。
Outline of Annual Research Achievements	本研究では，言語形態論のうち，言語コーパスに基づく統語構造(Syntactic structure)学習モデルと意味構造(Semantic structure)学習モデルを統合した総合的形態論に基づく言語モデルを構築し，第二言語習得者のための言語習得支援に活用することを目的とする．第1の課題であるBEA2019 Shared Taskの研究結果に基づく，統語構造を獲得する学習法の改良検討については，前年度は，Kanneko et al.のBert-gecモデルを評価検討したが，今年度は，Omelianchuk et alのGECToRを評価検討し，とくに，人工的に合成された大規模な訓練データの品質を改善するために，訓練文を従来の人工的なエラーを挿入する前の原文ではなくGECモデルの予測文がより適切な誤り訂正文であるという仮説を立てて，人工合成訓練データを再構築する方法を提案した．数値実験の結果，提案した再構築された人工合成訓練データによる学習が，元の人工合成訓練データによる学習よりも優れていることが示され，提案手法による人工学習訓練データのみを用いた学習は，第二言語学習者の誤り文章から生成された訓練データと従来の人工合成訓練データを併用した学習と同等の効果が得られることが示された．第2の課題である入力文章から意味構造を獲得する学習モデルについて，意味構造として抽象的なAMR(Abstract Meaning Representation)の学習モデルをさらに検討し，AMRの言語コーパスであるLDC2020T02を用いて，GECToRによる学習モデルを構築し，統合構造と意味構造の学習モデルの統合の実現性を実験等で確認した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 統語構造を訓練する学習モデルの学習法として，提案した手法により，大規模な人工合成訓練データの品質を改善することができ，そのために，第二言語学習者の誤り文章から生成された小規模な訓練データに頼らずに，統語構造を訓練する学習法が確立できた．訓練データがさらに少ない意味構造の学習法にもこの手法が適用できること，共通の学習モデルで統語構造および意味構造を訓練できる見通しが立ったことが理由に挙げられる．
Strategy for Future Research Activity	第二言語学習者の誤り文章から生成された小規模な訓練データに頼らずに，大規模な人工合成訓練データの品質を改善する統語構造学習のための提案手法を，訓練データがさらに少ない意味構造の学習法に適用し，意味構造学習の精度を向上する．さらに，共通の学習モデルを用いて，統語構造および意味構造を訓練し，高精度に文法上の誤りや意味上の誤りを検出・訂正する学習モデルを構築する．最後に，意味構造学習モデルと統語構造学習モデルを統合した形態論に基づく学習モデルと語彙データベースを用いて，英語文章作成支援アプリケーションを開発する．支援アプリケーションの構想は，第二言語学習者がオンラインで文章作成途中に，単語の意味上・統語上の関連性に基づく統語構造と意味構造の提示，前単語や次単語の候補の提示，文法上・意味上の誤りを検出する等の機能をもつ．なお，英語文章作成支援アプリケーションは，サーバクライアントライブラリをもつPython言語やデータベース等により構成することにより，ネットワーク上で有効に利用できることも検討する．

Report

(2 results)

2022 Research-status Report
2021 Research-status Report