2010 Fiscal Year Annual Research Report
教材の自動評価のための学校文法に基づいた安全な英文解析システムの開発
Project/Area Number |
21720211
|
Research Institution | Ritsumeikan University |
Principal Investigator |
田中 省作 立命館大学, 文学部, 准教授 (00325549)
|
Keywords | 学校文法 / 構文解析 / 機械学習 / コーパス |
Research Abstract |
今年度は,主に次のような2点に軸を置き,研究を推進した. 1.再現率を優先した文法項目の検出ルールの整備 代表者が分担者としてかかわっているプロジェクトで構築を進めている,学校文法に関する情報を付与したコーパスを学習データとして,機械学習などを活用すれば(やや過学習の傾向もあり)適合率が高い文法項目の検出ルールが比較的容易に整備される.しかしその一方で,再現率が必ずしも高くないため,応用研究に適用した場合には,非常に出現率が低いものの特徴的で重要な文法項目を取りもらす傾向がある.応用研究によっては(たとえば,質情報が付与された科学論文データを質的観点で比較し,その要因を探る等),そのように滅多には出ないが,重要となる文法項目が存在する場合も少なくない.そこで,今年度は再現率に重きをおいた検出ルールの整備を進めた.検出ルールを人手で書くのが難しい文法項目については,浅く構文解析した結果(チャンキング情報)に,各文法項目に重要となるような単語以外は品詞でマスクし,決定株を弱学習器としたブースティングで判別器を構成した.もし再現率が不十分な場合は判別器に表れる素性等を参照しつつ,検出ルールをさらに人手で書き加えた.文脈を頼りにする文法項目(たとえば条件節がない帰結節のみの文など)については,明確に検出し分けることが極めて難しいため,再現率を優先することで,適合率をかなり落とすようなルールも散見され,今後の課題である. 2.学校文法に基づいた英文解析システムの開発と公開準備 昨年度と今年度に記述した学校文法項目の検出ルールを組み合わせた解析システムを実装し,Web上での公開を進めた(本報告書を記述している2011年3月は本研究室の計算機環境の更新等もあり,まだ正式版は公開できていない).
|