2016 Fiscal Year Annual Research Report
単語のベクトル表現に基づく分野の変化に頑健な構文解析器に関する研究
Project/Area Number |
16H06981
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
能地 宏 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00782541)
|
Project Period (FY) |
2016-08-26 – 2018-03-31
|
Keywords | 計算言語学 / 自然言語処理 / 構文解析 |
Outline of Annual Research Achievements |
本年度は様々な観点で分野に依存しない頑健な構文解析器を構築するための研究を進め、以下の2つの成果があった。 1つ目は、文法として依存構造文法を仮定した場合の適切な表現に関する研究である。近年 Universal Dependencies (UD) という様々な言語にわたる依存構造のアノテーションを統一化しようとする試みがなされており、これが将来標準になっていくものと思われる。しかしながら、 UD で仮定されている文法は多言語間の統一性を測る点が重視された結果、構文解析の点からは解析しにくいものになっているという意見も挙がっていた。本研究はまずこの点を調査するため、 UD の構文木を別の、従来の構文解析の研究で標準的に用いられる形に似たものに変換する手法を開発し、変換後の木の方が解析が容易であることを確認した。更に、変換した木を逆に変換元の UD の木に戻す可逆変換の手法を開発した。二つの手法を組み合わせ、実際の解析は変換した解析しやすい木で行い、解析後に UD の形に戻す研究を行ったところ、多言語にわたり精度が向上し、良好な結果を示した。 2つ目は組み合わせ範疇文法 (CCG) に基づく品詞情報を用いない構文解析手法の研究である。近年単語の分散表現から、 CCG の各単語に割り当てられるカテゴリを予測することで、品詞を用いなくとも高精度の解析が行えることが示されつつあったが、まだ問題も残る状態であった。本研究では、この既存手法を拡張し、単語のカテゴリと別に各単語の主辞を予測することで、同じく品詞を用いずに精度を向上させることに成功した。現在この手法は英語及び日本語の CCG 構文解析における最高精度を達成している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
特に CCG を用いた品詞を用いない高精度な解析法は申請時では想定していなかった成果であるが、これがうまくいったことで、 CCG に基づいて、もともとの目標である分野に頑健な構文解析器を構築できる可能性が出てきた。 当初予定していた、既存の依存構造解析器の各分野に対するエラー分析はまだまとまった成果が得られていないが、今後は構築した CCG 解析器の異なる分野における性能を評価し、これをもとに研究を進めていけると考えている。
|
Strategy for Future Research Activity |
本研究は以下の二つの研究に取り組む予定である。 まず、 CCG に基づいて高精度が解析が行えることが明らかになったが、一つの問題点として、 CCG は応用面では必ずしも必要とされず、より単純な依存構造の方が扱いやすい場合が多い点が挙げられる。従って、もし CCG の導出木を UD などの依存構造木に変換する手法が得られれば、この問題点を解決できるため、これに取り組む予定である。 二つ目は、構築した CCG 構文解析器を用いた分野適応の研究である。構築した手法は品詞を用いないという点でエラー伝搬の可能性が低く、また非常に単純で拡張性が高いため、高い分野適応性も持っていると考えられる。
|