国立国語研究所の『現代日本語書き言葉均衡コーパス』(BCCWJ)のコアデータに含まれるアノテーション優先順位Aのデータセット(894サンプル)に対して、学校文法の「文の成分」「文節どうしの関係」に相当する情報を付与した。学校文法には「文の成分」として「主語」「述語」「修飾語」「接続語」「独立語」があり、また文の成分の内部構造として「並立の関係」「補助の関係」があるが、これらを「主語」「連用」「連体」「接続」「独立」「並立」「補助」「その他」の8種類の係り受けラベルとして表現した。このデータをBCCWJ-1.1版の節境界と一致するように重ね合わせ、データベースや機械解析の入力として利用可能なCaboCha形式のファイルを作成した。また、作成したデータを教師データとしてYamChaで学習させ、同様のラベルを約93%の精度で自動付与する簡易タガーを作成した。このデータ(『教科書文法アノテーションデータ』)およびツール(kokugo_tagger-1.0.3)をWeb上で公開するとともに、その概要およびレジスタ別の比較等を学会で報告した。BCCWJについては既存の係り受けデータ(BCCWJ-DepPara)が存在するが、主語、連用、連体など係り受けの下位分類は付与されていない。研究者個人が独自に付与するには一定の技術やコストが必要となり、再現性の確保も問題となる。本研究は学校文法に準拠した汎用的な係り受けデータセットとツールを提供するものであり、日本語学や国語教育の分野での利活用が期待できる。
|