2016 Fiscal Year Research-status Report
頑健な単語表現の学習と深層ニューラルネットワークを用いた誤り訂正
Project/Area Number |
16K16117
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小町 守 首都大学東京, システムデザイン研究科, 准教授 (60581329)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 誤り訂正 / 表現学習 / 分散表現 / LSTM |
Outline of Annual Research Achievements |
本年度は、単語の分散表現を学習する Collobert and Weston (2008) をベースに、英語学習者の誤りパターンを考慮した単語の分散表現を得る手法を提案した。提案手法は文法誤り情報を用いて単語分散表現を更新する部分と、擬似負例の作成に学習者の誤りパターンを考慮する部分に分かれており、前者は誤り情報を直接的に考慮することができ、後者は大規模だがノイジーな学習者コーパスを有効に活用することができる。英語学習者の文法誤り検出タスクにおいて、LSTM を用いた誤り検出器を構成し、学習された単語分散表現の有効性を検証した。 実験の結果、英語学習者の誤りパターンを考慮することで、学習者の誤り方を反映した単語分散表現を学習することが可能であることを示し、英語学習者の文法誤り検出タスクで世界最高精度を達成することができた。分析の結果、提案手法は学習者の作文に頻出する誤りを高精度で検出できる反面、頻度が少ない誤りの検出には失敗することが分かった。また、提案手法は挿入誤りを考慮していないため、挿入誤りの検出精度が先行研究の手法と比較して低い、という課題が明らかになった。 研究成果は言語処理学会第23回年次大会で発表し、若手奨励賞を受賞した。また、当該研究成果を自然言語処理のトップカンファレンス Conference on Empirical Methods in Natural Language Processing に投稿した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本語や中国語のような単語分割の必要がある言語における誤り訂正タスクでの評価はできていないが、英語学習者の誤り検出タスクで深層ニューラルネットワークを用いることで世界最高精度を達成し、当初の計画通り誤りパターンを考慮した単語分散表現の学習が有効であることを示すことができ、順調に進展している。
|
Strategy for Future Research Activity |
昨年度は小規模な英語学習者コーパスから抽出した誤りパターンを用いることで、それまでの世界最高精度と比較して統計的に有意な性能の向上を示すことができたが、大規模な英語学習者コーパスから抽出した誤りパターンを用いることで、さらなる性能の向上を図り、文法誤り検出だけではなく文法誤り訂正タスクでも有効性を示す。 また、英語学習者の文法誤り訂正・検出タスクだけではなく、日本語や中国語など他の言語における文法誤り訂正にも頑健な表現学習手法および深層ニューラルネットワークを用いた誤り検出手法の検討を行う。
|
Causes of Carryover |
少額で GPU 等の研究物品を購入することができなかったため。
|
Expenditure Plan for Carryover Budget |
次年度の予算と合算して GPU を購入する。
|
Research Products
(2 results)