2016 Fiscal Year Annual Research Report
Improvement of Syntactic Dependency Analysis by Syntax Pattern Acquisition and Coordinate Structure Analysis
Project/Area Number |
26240035
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
進藤 裕之 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (20734784)
能地 宏 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00782541)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 自然言語処理 / 統語解析 / 並列構造 / 複文構造 / 依存構造解析 / 機械学習 / アノテーション / コーパス |
Outline of Annual Research Achievements |
自然言語の統語解析の高性能化を目指し、特に英語の複単語表現と複文パターンの収集とコーパスへのアノテーション、および、英語の並列構造解析のためのリソース構築と解析手法の開発に関する研究を行った。 英語の複単語表現については、これまでの機能表現に加えて固有表現や動詞句に関する表現を収集し、Penn Treebankへの半自動アノテーションによるコーパス構築と、複単語表現を考慮した依存構造解析手法に関する研究を行い、複単語表現の出現を考慮することで依存構造解析の高精度化を達成する手法を提案した。また、修飾語を内部に含むような柔軟な構造をもった複単語表現の網羅的な収集を行い、Penn Treebank上の出現を自動的に同定する手法を提案した。 英語の並列構造解析については、昨年度は従来の依存構造解析アルゴリズムを拡張し、並列構造の範囲を動的に考慮しながら依存構造解析を同時に行う手法を提案したが、本年度は、並列構造の範囲同定を行う手法の高性能化について検討し、系列の類似性を測るニューラルネットワークモデルの設計と実装を行った。 上記の研究成果を統合し、複単語表現と並列構造を同時に考慮しながら英文の解析を行うシステムの構築まで達成することができなかったが、引き続き統合的な解析システムとアノテーションを施したデータの構築を行っていく予定である。 なお、本研究で構築した複単語表現アノテーションコーパス(Ontonotes corpusのPenn Treebank対応の部分に複単語表現のアノテーションとそれを考慮した依存構造木)をLinguistic Data Consortiumを通じて公開した。
|
Research Progress Status |
28年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
28年度が最終年度であるため、記入しない。
|
Research Products
(9 results)