2017 Fiscal Year Annual Research Report
Studies on robust statistical parsing across different domains using word embeddings
Project/Area Number |
16H06981
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
能地 宏 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00782541)
|
Project Period (FY) |
2016-08-26 – 2018-03-31
|
Keywords | 計算言語学 / 自然言語処理 / 構文解析 |
Outline of Annual Research Achievements |
昨年度に引き続き、様々な観点から頑健な構文解析器を構築するための研究を進め、大きく二つの成果があった。これらはどちらも、多言語に亘って標準化が進められている Universal Depedencies と呼ばれるコーパス集合の上で行った成果である。 一つ目は、分野の変化に頑健な構文解析器を構築する手法として、依存構造解析に適した adversarial training の手法を提案した。 adversarial training は機械学習の新しい手法であり、構文解析に適用し、成果を得たのは本研究が初だと言える。二つ以上の分野が異なるコーパスを入力とし、本手法では、分野に共通する入力の特徴と、分野に固有の入力の特徴とを自動的に抽出し、訓練データを有効活用することができる。また興味深いことに、本手法を用いて、似た言語、例えばフランス語とイタリア語の解析器を同時に学習し、両者の文法上の共通点をうまく取り出し、精度の向上を行えることも示した。この手法を用いた構文解析器を利用し、国際会議 CoNLL での shared task に参加し、全33チーム中6位の成績を収めることができた。 二つ目の成果は、依存構造解析における"交差"と呼ばれる現象への新しい対処法である。入力単語を左から一単語ずつ処理する遷移型の構文解析器にとって、この交差現象は扱いにくい現象であり、未だ最適な処理方法は確立されていないが、既存法の弱点を改善する新しいアルゴリズムを提案し、この方法が多言語に亘って実際に構文解析精度を向上させることを示した。
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|