研究課題/領域番号 |
26240035
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
研究分担者 |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
Duh Kevin 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322)
進藤 裕之 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (20734784)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 自然言語処理 / 並列構造解析 / 依存構造解析 / 多言語処理 / 機械学習 / 構文パターン |
研究実績の概要 |
並列構造解析を考慮した依存構造解析アルゴリズムを実装し,英語の代表的な統語解析アノテーション付コーパスであるPenn Treebankから自動変換によって得られた依存構造木におけるカバレージの評価を行った.また,部分並列構造を含む文の解析に対応するため,Penn Treebankにおける並列構造の範囲および並列構造に関連する依存構造のアノテーションの仕様設計を開始した. 英語の構造パターン収集のために作成した例文集に対して,複単語表現および複文構文パターンのアノテーション作業を昨年度より継続し,収集した700文に対するアノテーションを完了した.複単語表現および複文構文パターンを辞書管理システムに格納するためのフォーマットの詳細設計を行った. 機能表現として働く複単語表現および句動詞の網羅的な辞書構築を行い,Penn Treebankにおけるすべての出現について,正用例かどうかの確認を半自動で行う方法を実行し,複単語機能表現および句動詞のアノテーションがほどこされたコーパスを構築した. 大規模なコーパスから階層的な言語表現パターンを抽出する方法について検討し,2種類の手法を実装し,言語モデルとしての性能評価実験を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目標である並列構造解析および複文パターンの構築について基礎的な実験および基盤となる辞書の構築とコーパスへのアノテーション作業に一定の区切りをつけることができた.
|
今後の研究の推進方策 |
Penn Treebank中の並列構造と依存構造のアノテーションの詳細設計を行い,句構造情報を利用した自動アノテーションと人手による修正作業をコーパス全体に対して行う.このコーパスを用いて並列構造の範囲同定および依存構造解析の実験を行い,性能を評価する.特に,並列構造解析と依存構造解析を同時に行う手法について再検討を行い,部分並列構造の解析にも対応させるとともに,その性能評価を行う. 本年度収集した英語の複文構文パターンを辞書として完成させて辞書管理システムに収納するフォーマットを決定し,辞書データとして完結させる.さらに,収集した複文パターンのPenn Treebankにおける出現を網羅的に探索し,一部人手による確認を行いながら半自動でアノテーションを行う方法を検討し,複文構文パターンを網羅的にアノテーションされたコーパスを構築する. 複単語表現および複文構文パターンを利用して依存構造解析の性能を向上させるアルゴリズムの詳細設計と実装を行い,アルゴリズムの性能評価実験を行う. 句動詞以外に,修飾語等を伴うことのできる柔軟な複単語表現の収集を行う. 本研究課題で構築した複単語表現,句動詞,複文構文パターンの辞書,および,並列構造,複単語表現,複文構文パターンのアノテーションを行ったコーパスの情報を研究利用可能な言語資源として無償公開する.
|