研究課題/領域番号 |
16K16117
|
研究機関 | 首都大学東京 |
研究代表者 |
小町 守 首都大学東京, システムデザイン研究科, 准教授 (60581329)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 誤り訂正 / 誤り検出 / 表現学習 / 分散表現 / LSTM / 第二言語習得 / マルチタスク学習 |
研究実績の概要 |
本年度は、昨年度に引き続き、英語学習者の誤りパターンを考慮した単語の分散表現を得る手法の研究を継続した。英語学習者の文法誤り検出タスクにおいて、LSTM を用いた誤り検出器を構成し、学習された単語分散表現の有効性を検証した。昨年度の実験に引き続き、複数の学習者コーパスにおいて提案手法が有効であることを示した。当該研究成果を自然言語処理の中堅国際会議 International Joint Conference on Natural Language Processing にて発表し、言語処理学会の論文誌「自然言語処理」に投稿した。 また、本年度は昨年度の研究に基づき誤り訂正の研究にも取り組んだ。本年度は誤り検出の結果を誤り訂正の素性として用いる単純なパイプライン処理手法を提案した。誤り検出素性を使うことで、誤り訂正の適合率が向上し、全体の精度も向上することを確認した。また、誤り訂正を行うことで誤り検出自体の精度も向上することを示した。当該研究成果は言語処理学会年次大会にて発表した。 そして、本年度は新たに誤り訂正の関連タスクとして第二言語学習者の言語習得モデリングの共通タスクに取り組んだ。このタスクは言語学習者の過去の学習履歴からどの単語を誤りやすいのかを予測するというタスクで、翻訳問題、語順並べ替え問題、聞き取り問題の学習履歴からなるデータが与えられる。我々はデータの特徴から LSTM によって学習履歴を考慮し、かつ複数の問題のデータからマルチタスク学習を行うモデルを提案し、共通タスクに参加した12チーム中4位の成績を残した。当該研究成果は Workshop on Innovative Use of NLP for Building Educational Applications に投稿した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績の概要に示したように、英語学習者の誤り検出タスクで深層ニューラルネットワークを用いることで世界最高精度を達成し、かつ当初の計画通り誤り検出と誤り訂正タスクを同時に解くことが有効であることを示し、順調に進展している。 また、本年度は分かち書きの必要な言語である日本語の誤り検出の研究に取り組み、日本語書き言葉均衡コーパスを対象に、文字単位の入力にして LSTM を用いた誤字検出の実験を行なった。実験の結果、LSTM に基づく RNN 言語モデルは文字 n-gram による統計的言語モデルより精度が高いことを示したが、ネイティブの書いた文章の誤り検出は誤警報率を低くしたまま再現率を高くすることが困難なタスクであることを確認した。
|
今後の研究の推進方策 |
昨年度までは1文のみを見た文法誤り検出・訂正タスクに取り組んだが、言語学習者の履歴や文章全体を考慮した文法誤り検出・訂正タスクに取り組んでいきたい。 また、英語学習者の文法誤り訂正・検出タスクだけではなく、日本語や中国語など分かち書きが必要な言語における文法誤り訂正にも頑健な表現学習手法および深層ニューラルネットワークを用いた誤り検出手法の検討を行う。現在は文字単位の LSTM による誤り検出の実験を行なっているが、単語レベルの情報、具体的には同音異義語を考慮した誤り検出手法の研究をする予定である。
|
次年度使用額が生じた理由 |
少額で GPU 等の研究物品を購入することができなかったため、次年度の予算と合算して GPU を購入する。
|