2017 Fiscal Year Annual Research Report
Research on syntactic parsing with multiword expressions
Project/Area Number |
15K16053
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
進藤 裕之 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (20734784)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 複単語表現 / 構文解析 / アノテーション |
Outline of Annual Research Achievements |
平成29年度は,複単語表現のコーパス構築と,複単語表現の解析手法の拡張に取り組んだ. まず,コーパス構築に関しては,動詞となる複単語表現("take~off"など)の辞書収集とコーパスアノテーションを行った.動詞となる複単語表現は,非連続なパターンとなることが多いため,単語の品詞と依存構造を利用して半自動的にアノテーションを行うことに成功した.その結果,本研究の成果は,従来研究と比較して,機械学習の訓練データとして用いることができる大規模な複単語表現コーパスとなっている.また,構築した動詞複単語コーパスは,Web上で公開しており,誰でも無償で利用することができる. 次に,複単語表現の解析手法に関しては,従来のように複単語表現のみを解析するのではなく,構文解析と複単語表現を同時に解析する手法を考案し,その性能を評価した.具体的には,依存構造,複単語表現,固有表現の情報を1つの木構造として整合性が取れるように,それぞれの文のアノテーションを統合を行った.そして,この木構造のアノテーションデータを機械学習の訓練データとして用いて,文から木構造を予測する構文解析器のモデルを構築した. 評価実験の結果,複単語表現のみを単独で解析するよりも,同時に解析することにより,複単語表現,依存構造,固有表現の解析性能がそれぞれ向上することを実証した. これまでに,頻度の高い複単語表現,特に動詞と名詞の複単語表現に関しては,大規模なコーパス構築および解析手法の提案・評価が完了した.この一連の手法を他の品詞にも適用してコーパスの網羅性を高めることは可能であり,今後の課題とする.
|