言語学習者の誤用に注目した単語と文の分散表現の獲得と分析
Project/Area Number |
19KK0286
|
Research Category |
Fund for the Promotion of Joint International Research (Fostering Joint International Research (A))
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Hitotsubashi University (2023) Tokyo Metropolitan University (2019-2022) |
Principal Investigator |
小町 守 一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)
|
Project Period (FY) |
2020 – 2023
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥12,610,000 (Direct Cost: ¥9,700,000、Indirect Cost: ¥2,910,000)
|
Keywords | 自然言語処理 / 言語学習 / 文法誤り訂正 / 深層学習 / 事前学習モデル / 疑似誤り / 言語学習支援 |
Outline of Research at the Start |
本国際共同研究では、言語学習者のライティングに存在する「誤り」に着目し、言語学習者がどのような単語や文を書いているのかの分析を行います。言語学習者が実際に書いた文章だけでなく、大規模データを用いて擬似的に誤りを発生させることで、様々な種類の誤りを分析するだけでなく、複数の言語で比較することで言語横断的な分析をも可能にする、というのが本研究の狙いです。
|
Outline of Annual Research Achievements |
2022年度の後半に ChatGPT が登場し、2023年度は大規模言語モデルが自然言語処理の様々なタスクで広く使われるようになりました。それに合わせて既存の深層学習時代以前から用いられている英語文法誤り訂正の評価データセットでは、言語学習者の書く文法誤り訂正システムの評価を適切に行えない、という仮説を立て、実験によって私たちの仮説が正しいことを明らかにしました。中国語文法誤り訂正においても、広く用いられている評価データセットに関する包括的な検証及び深層学習手法の出力を含むデータセット構築を行いました。また、日本語文法誤り訂正の評価データセットを公開し、研究目的で広く使えるようにしました。
研究期間全体を通じて、英語・日本語・中国語の文法誤り訂正に関するデータセットの構築と、深層学習を用いた文法誤り訂正システムの出力の分析、そしてそれらについての包括的な評価に取り組みました。また、これら3言語以外の言語も含めた多言語の文法誤り訂正において、深層学習の発展に伴って様々な手法の評価と分析を行いました。以下は、研究期間全体を通じて実施した研究成果の概要です。(1) 事前学習モデル (BART, BERT) の適用 (2) 非自己回帰モデルによる高速化 (3) 学習者の誤りを考慮した擬似学習者コーパスを用いた手法の提案 (4) 文法誤り訂正出力の多様性の分析と改善 (5) 多言語モデルによる文法誤り訂正の知識の転移学習 (6) 参照文を用いない文法誤り訂正の自動評価手法の開発およびデータセット構築
|
Report
(4 results)
Research Products
(27 results)