2014 Fiscal Year Annual Research Report

構文パターン獲得と並列構造解析による統語的依存構造解析の高精度化

Research Project

Project/Area Number	26240035
Research Institution	Nara Institute of Science and Technology
Principal Investigator	松本裕治奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
Co-Investigator(Kenkyū-buntansha)	新保仁奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589) DUH Kevin 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322) 進藤裕之奈良先端科学技術大学院大学, 情報科学研究科, 助教 (20734784)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	自然言語処理 / 並列構造解析 / 依存構造解析 / 多言語処理 / 機械学習 / 構文解析
Outline of Annual Research Achievements	長い文の統語解析の高精度化へ向けて，英語の複単語表現および構文パターン抽出のための資源構築に取り組んだ．複単語表現に関しては，英語の句動詞の網羅的な収集とそれぞれの例文の収集，および，例文中の句動詞候補が句動詞として使われている正用例かそれとも字義通りの意味として使われている負用例かアノテーション作業を行った．これを学習データとして，句動詞の正負用例を分類する実験を行い，高い精度で分類が可能であることを確認した．構文パターンの収集については，英語学習のための構文例文集から複文の例文を収集し，自動解析を行った結果の誤り修正と構文パターンのアノテーション作業を約３００文に対して行った．また，アノテーション作業を行うためのツールの開発を行った．また，大規模の言語データを対象にして，高頻度語を階層的にまとめ上げることにより，頻出パターンを抽出する言語モデルを提案し，言語モデルとして有用であることを確認した．並列構造解析に関して，依存構造解析アルゴリズムを拡張することにより，英文中の並列構造を明示的に識別することを可能にするアルゴリズムを提案し，英語の標準コーパスの一つであるPenn Treebank中の並列構造をもつ文の大半をカバーできることを確認した．また，英語および日本語の依存構造解析の性能向上のため，形態素解析レベルの曖昧性を保持しつつ依存構造解析を実行するためのいくつかの手法の提案と実験を行った．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 複雑な構文パターンや並列構造を解析するための基礎データの蓄積に，想定以上の作業量と時間を要したため，本年度の研究時間の多くをデータ収集とデータへのアノテーション作業に費やすることになった．そのため，英語の構文パターンのカバレージに関する調査を行うことができなかった．並列構造解析に関しては，アルゴリズムの設計は完了し，動作確認および解析時間の評価も行った．当初の予定通り推移しているが，実験の効率化のための実装の問題が新たに浮上したため，今後効率化への考察が必要であることが明らかになった．
Strategy for Future Research Activity	英語の構文パターンの収集を引き続き行う．構文パターンの例文を収集したコーパスをより網羅的に作成し，構文パターンのアノテーション作業および辞書管理システムにおける構文パターンの表現方法の設計を行い，単語，複単語表現，構文パターンをすべて辞書項目として統一した表現方法で辞書管理システムに格納できるよう，辞書管理システムの拡張を行う．英語と並行して，日本語の構文パターンの収集と例文へのアノテーション作業の仕様を決め，日本語複文コーパスの作成を開始する．複単語表現や構文パターンを利用して依存構造解析の性能を向上させるアルゴリズムの設計を実装を行う．平行して，複単語表現や構文パターンの半自動抽出に関する研究を進め，辞書項目の拡張と依存構造解析のカバレージと性能向上を並行的に達成する方法について検討する．並列構造を考慮したグラフに基づく依存構造解析アルゴリズムの効率的な実装を行い，実験により性能の評価を行う．並列構造解析の性能を評価するためのデータの収集を行い，正解がアノテーションされた評価コーパスを構築する．並列構文解析の基本技術となる単語列や表現列のアラインメントに利用するため，単語や表現間の意味的な類似性を計算する方法を，分散表現を基盤とする手法に基づいて設計し，実験により評価を行う．

Research Products
(4 results)

All 2015 2014

All Presentation (4 results)

[Presentation] 英語の句動詞表現の同定とコーパス構築2015
- Author(s)
  駒井雅之, 進藤裕之, 松本裕治
- Organizer
  言語処理学会第21回年次大会
- Place of Presentation
  京都大学（京都府京都市）
- Year and Date
  2015-03-17 – 2015-03-19
[Presentation] 係り受け情報を利用した日本語形態素解析2015
- Author(s)
  俵雄貴, 東藍, 松本裕治
- Organizer
  情報処理学会第220回自然言語処理研究会
- Place of Presentation
  九州大学医学部百年講堂(福岡県福岡市）
- Year and Date
  2015-01-19 – 2015-01-20
[Presentation] A Hierarchical Word Sequence Language Model2014
- Author(s)
  Xiaoyi Wu and Yuji Matsumoto
- Organizer
  28th Pacific Asia Conference on Language, Information and Computation
- Place of Presentation
  Phuket (Thailand)
- Year and Date
  2014-12-12 – 2014-12-14
[Presentation] Supertagの曖昧性を考慮した依存構造解析2014
- Author(s)
  大内啓樹, Kevin Duh, 進藤裕之, 松本裕治
- Organizer
  情報処理学会研究報告第218回自然言語処理研究会
- Place of Presentation
  首都大学東京（東京都八王子市）
- Year and Date
  2014-09-01 – 2014-09-02

2014 Fiscal Year Annual Research Report

構文パターン獲得と並列構造解析による統語的依存構造解析の高精度化

Principal Investigator

松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)

Current Status of Research Progress

Reason

Research Products

[Presentation] 英語の句動詞表現の同定とコーパス構築2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 係り受け情報を利用した日本語形態素解析2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A Hierarchical Word Sequence Language Model2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Supertagの曖昧性を考慮した依存構造解析2014

Author(s)

Organizer

Place of Presentation

Year and Date

松本裕治奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)