2011 Fiscal Year Annual Research Report
大規模テキスト処理のためのスーパータグを用いた高精度かつ高速な深い構文解析
Project/Area Number |
11J09447
|
Research Institution | The University of Tokyo |
Principal Investigator |
張 耀中 東京大学, 大学院・情報理工学系研究科, 特別研究員(PD)
|
Keywords | structure-guided / long-range grammar constraints / dependency-based / HPSG / indirect supervision |
Research Abstract |
研究の初年度であった平成23年度は、順調に研究が進展した。まず、依存文法を利用したsupertaggerの研究に基づいて、supertaggerのための依存情報抽出方法を高速化した。深い構文解析において、効率は非常に重要である。従来のMST法と比べて、shift-reduce法は精度を落とす代わりに、抽出効率が良い。この手法によって、supertaggerの精度は多少悪化したものの、主辞駆動句構造文法(HPSG)解析器と組み合わせた場合の全体の解析速度を3倍程度高速化できた上に、従来と同程度の構文解析精度を達成できた。この結果に基づいて、supertaggerの及ぼす構文解析器への影響を解明することができた。 一方で、構文解析森をsupertaggerの学習時に制約として用いる手法を実装した。この手法では、元のHPSGを近似するCFGを用いて最良優先探索を行うことで、学習時のモデルパラメータを更新する際に文法の制約を満たすsupertagのみを用いる。この手法により、標準的な評価セット(Penn Treebank Section 23)に対して、ベースラインの手法に比べ述語項構造認識のF値で0.68%の改善が得られ、また、現在最高精度を持つHPSG構文解析器よりも高速に、なおかつ遜色のない89.31%の精度を得ることができた。この手法に対して間接的な教師あり機械学習という観点と探索に基づいた機械学習という観点から分析を行った。 さらに、依存文法と近似解析CFG森を利用した手法をsupertaggerと構文解析で比較した。特に、両者を組み合わせた最終的なパフォーマンスの影響を実際のデータを用いた実験により確かめた。この研究の結果と博士論文で解明した結果を合わせて、国際論文誌Natural Language Engineering特別号"Statistical Learning of Natural Language Structured Input and Output"に投稿し受理された。 また、深い構文解析における半教師及び間接的な教師あり学習に関する研究を開始した。間接的な構造情報を利用して、構文解析精度を向上させることを目指す。通常深い構文解析において、大量の構造データを得ることは困難である。提案手法は、二値分類問題などに用いられるデータと深い構文解析データを併用して同一のフレームワークで学習を行う。この研究の結果は、国際会議へ投稿する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Supertaggerのための依存情報抽出法を高速化し、またsupertaggerが構文解析器に及ぼす影響を解明した。構文解析森をsupertaggerの学習時に制約として用いる手法を実装し、supertaggerと構文解析器の精度を向上させた。提案手法は、現在最高精度を持つHPSG構文解析器と同程度の89.31%という精度を達成しつつも、同解析器よりも高速である。さらに、依存文法と近似解析CFG森を利用した手法をsupertaggerと構文解析で比較した。
|
Strategy for Future Research Activity |
研究の二年目である平成24年度は、深い構文解析における半教師及び間接的な教師あり学習に関する研究を続ける。現在は海外渡航を予定しており、間接的な教師あり学習と制約学習について精力的に研究を行っているUniversity of Illinois at Urbana-ChampaignのDan Roth教授の下で理論的研究を推進していく。今後これらの研究成果は国際会議での発表を考えている。
|