研究概要 |
本研究課題で開発を行ってきた英語構文解析器Enjuの改良、詳細な分析、及び成果発表を行った。特に、曖昧性解消確率モデルの改良・分析を行い、その成果を国際学会で発表した。曖昧性解消には、カンマの有無、句の長さ、品詞の情報が有効に働くこと、確率モデルの学習データは比較的少量でも高精度が達成できること、長い文でも解析精度はあまり変化しないことなどを実験的に示した。これらの成果はさらなる精度向上に向けての指針となると考えられる。また、Enjuの文法および確率モデルが構文解析だけでなく文生成にも適用でき、高精度を達成することを示した。 さらに、Enjuの応用についての研究も引き続き行った。生物学論文からの情報抽出に対して、昨年度はEnjuの出力(predicate argument structure)の上のパターン規則を自動獲得することで高精度が達成できることを示したが、これに加えて、機械学習アルゴリズムSVMを組み合わせることでさらに精度を向上させる研究を行った。Predicate argument structureのパターンを機械学習の素性とすることにより、Enjuの出力を機械学習の入力として利用し、これにより、機械学習のみやパターン規則のみを用いるよりも高精度が達成できることを示した。また、生物学論文の大規模データベースMEDLINEの全アブストラクト約1,500万件をEnjuで解析し、その解析結果を利用して文献検索を行うシステムを開発した。これほど大規模なテキストを構文解析する実験は初の試みである。さらに、この文献検索システムは既存のキーワード検索に比べてはるかに高い精度で検索結果が得られることを示し、構文解析の有用性を実用アプリケーションにおいて示した。
|