2014 Fiscal Year Annual Research Report
構文パターン獲得と並列構造解析による統語的依存構造解析の高精度化
Project/Area Number |
26240035
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
DUH Kevin 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322)
進藤 裕之 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (20734784)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 自然言語処理 / 並列構造解析 / 依存構造解析 / 多言語処理 / 機械学習 / 構文解析 |
Outline of Annual Research Achievements |
長い文の統語解析の高精度化へ向けて,英語の複単語表現および構文パターン抽出のための資源構築に取り組んだ.複単語表現に関しては,英語の句動詞の網羅的な収集とそれぞれの例文の収集,および,例文中の句動詞候補が句動詞として使われている正用例かそれとも字義通りの意味として使われている負用例かアノテーション作業を行った.これを学習データとして,句動詞の正負用例を分類する実験を行い,高い精度で分類が可能であることを確認した.構文パターンの収集については,英語学習のための構文例文集から複文の例文を収集し,自動解析を行った結果の誤り修正と構文パターンのアノテーション作業を約300文に対して行った.また,アノテーション作業を行うためのツールの開発を行った. また,大規模の言語データを対象にして,高頻度語を階層的にまとめ上げることにより,頻出パターンを抽出する言語モデルを提案し,言語モデルとして有用であることを確認した. 並列構造解析に関して,依存構造解析アルゴリズムを拡張することにより,英文中の並列構造を明示的に識別することを可能にするアルゴリズムを提案し,英語の標準コーパスの一つであるPenn Treebank中の並列構造をもつ文の大半をカバーできることを確認した. また,英語および日本語の依存構造解析の性能向上のため,形態素解析レベルの曖昧性を保持しつつ依存構造解析を実行するためのいくつかの手法の提案と実験を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
複雑な構文パターンや並列構造を解析するための基礎データの蓄積に,想定以上の作業量と時間を要したため,本年度の研究時間の多くをデータ収集とデータへのアノテーション作業に費やすることになった.そのため,英語の構文パターンのカバレージに関する調査を行うことができなかった. 並列構造解析に関しては,アルゴリズムの設計は完了し,動作確認および解析時間の評価も行った.当初の予定通り推移しているが,実験の効率化のための実装の問題が新たに浮上したため,今後効率化への考察が必要であることが明らかになった.
|
Strategy for Future Research Activity |
英語の構文パターンの収集を引き続き行う.構文パターンの例文を収集したコーパスをより網羅的に作成し,構文パターンのアノテーション作業および辞書管理システムにおける構文パターンの表現方法の設計を行い,単語,複単語表現,構文パターンをすべて辞書項目として統一した表現方法で辞書管理システムに格納できるよう,辞書管理システムの拡張を行う.英語と並行して,日本語の構文パターンの収集と例文へのアノテーション作業の仕様を決め,日本語複文コーパスの作成を開始する. 複単語表現や構文パターンを利用して依存構造解析の性能を向上させるアルゴリズムの設計を実装を行う.平行して,複単語表現や構文パターンの半自動抽出に関する研究を進め,辞書項目の拡張と依存構造解析のカバレージと性能向上を並行的に達成する方法について検討する. 並列構造を考慮したグラフに基づく依存構造解析アルゴリズムの効率的な実装を行い,実験により性能の評価を行う.並列構造解析の性能を評価するためのデータの収集を行い,正解がアノテーションされた評価コーパスを構築する. 並列構文解析の基本技術となる単語列や表現列のアラインメントに利用するため,単語や表現間の意味的な類似性を計算する方法を,分散表現を基盤とする手法に基づいて設計し,実験により評価を行う.
|
Research Products
(4 results)