科学研究費基盤研究(C)「高度な統語・意味解析情報を持つコーパスの開発とその応用」では、日本語テキストに正確な統辞・意味解析情報を付加した日本語コーパスの構築法を研究し、また実際にそれにもとづいてコーパス開発を行うことを目標としている。平成29年度の研究では、引き続きこれまでに開発したアノテーション法にもとづいて現実の大量テクストに対し統辞・意味解析情報を付与した。この作業は研究補助員が担当した。 以上の作業を進めながら、形態素解析の方法を根本的に変えるための改定作業を進めた。新しい方式では、各単語の統語カテゴリーや機能情報がより詳しく示される。特に、活用、派生や複合語形成において、その内部構造と各構成素の持つ統語カテゴリー・機能情報が表示されるので、よりきめ細かい検索が可能になる。単語に対して英語のグロスをつけ、日本語に習熟しない人にも利用しやすくする。 また、竹内孔一講師 (岡山大学) との共同研究により、述語に対し概念フレームと意味役割を付与した述語項構造情報を与える作業を開始した。 新しい形態素解析は、宮田スザンネ教授 (愛知淑徳大学) が構築してきた CHILDES 方式の幼児言語発達コーパスに対して適用可能であり、同データを利用した、日本語幼児言語発達ツリーバンクの開発につながるものである。 また、コーパスに対し述語項構造情報を与えることにより、コーパスのデータについて、より意味的側面に立ち入った利用が可能になる。
|