研究概要 |
自然言語処理研究において,並列構造解析は困難な課題の一つであり,既存の優れた句構造解析器を使用しても並列構造を含む文の解析誤りが生じやすい.この誤りは,医学/生物学分野の学術論文テキストを対象にするとき特に頻出する.というのは,そこで主に記述されるのは生命科学実験の問題設定および実験結果であり,これらは並列構造を用いて記述されやすいからである(典型的には,新規療法/仮説に基づく手法と既存療法/コントロール手法との対比). 我々はすでに,英語文を対象に,系列アラインメントを応用した手法を用い,並列構造構成要素間の類似性を測ることで,並列構造を構成する単語系列の範囲を同定する機械学習による手法(識別モデル)を開発し,既存解析器を上回る精度を得ることに成功した.しかし,そこで開発した方法は,複数の並列構造が文に含まれる場合に対応できないため,実用的ではない. この問題を解決するために,今年度の研究では,複数の並列構造が成す階層構造を表現できる(並列構造解析に特化した)文法を用いることとし,その上で,構文解析で用いられるCKYアルゴリズムを応用して,それら並列構造を構成する単語系列の範囲と階層構造を同時に決定する方法を提案した.
|