2020 Fiscal Year Research-status Report
言語学習者の誤用に注目した単語と文の分散表現の獲得と分析
Project/Area Number |
19KK0286
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小町 守 東京都立大学, システムデザイン研究科, 准教授 (60581329)
|
Project Period (FY) |
2020 – 2022
|
Keywords | 自然言語処理 / 文法誤り訂正 / 深層学習 |
Outline of Annual Research Achievements |
本国際共同研究では、言語学習者のライティングに存在する「誤り」に着目し、言語学習者がどのような単語や文を書いているのかの分析を行います。言語学習者が実際に書いた文章だけでなく、大規模データを用いて擬似的に誤りを発生させることで、様々な種類の誤りを分析するだけでなく、複数の言語で比較することで言語横断的な分析をも可能にする、というのが本研究の狙いです。
渡航前には本研究室でこれまでに使っている Lang-8 コーパスを中心に英語の擬似誤りを用いた研究に取り組み、渡航後にはケンブリッジ大学が保有する大規模な Cambridge Learner Corpus を活用した研究を行う予定です。また、現在使われているデータ以外のコーパスについても、英語については様々な分野のジャンルが含まれるように、そしてそれ以外の言語についてもカバーしていくように、評価用・訓練用含めて拡充していく計画です。
2020年度はまず日本語学習者の文法誤り訂正の評価用のデータを作成し、国際会議に採択されました(発表自体は新型コロナウイルスの感染拡大のためにキャンセルになりました)。そして、英語学習者の単語単位での誤り傾向を反映した擬似学習者コーパスを用いた研究で国際会議に採択され、(オンライン)発表を行いました。また、英語学習者の文単位での誤り傾向(逆翻訳という手法で、誤りの含まれない文に対して自動的に誤りを付与します)を反映した擬似学習者コーパスを用いた研究で国際会議に採択され、2021年度中の発表を予定しています。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究発表については、英語学習者の文法誤り訂正タスクにおいて擬似データを用いた手法の研究が相次いで採択され、当初の計画を上回るスピードで挙がっています。また、HiNative というサービスを用いた新しいコーパス作成の研究もスタートし、日本語・中国語といった英語以外での言語についての準備を行なっています。 一方、当初に予定していた渡航計画については、学内でのサバティカルの調整も済んでいたにもかかわらず、新型コロナウイルスの感染拡大のために渡航計画の変更を余儀なくされ、サバティカルの取得期間を2020年9月-2021年8月から2021年9月-2022年8月に変更しました。このため、国際共同研究部分の開始が遅れています。
|
Strategy for Future Research Activity |
英語学習者の擬似データを用いた研究については今後も継続していく予定です。また、日本語学習者・中国語学習者の文法誤り訂正に効果的な擬似データの研究も今年度以降スタートします。 渡航計画については新型コロナウイルスの感染拡大状況やワクチンの接種状況を随時確認しながら具体的な渡航時期の決定を行う予定ですが、現在の予定では2022年の春から秋にかけて渡航する計画です。
|