本研究では、児童作文研究のための言語資源の整備と、それを利用した構文の複雑性に関する研究を行った。言語資源については、既に構築されていた「児童・生徒作文コーパス」について形態論情報の修正作業を段階的に進めた。形態論情報の修正に併せて構文情報の再解析も実施し、作文コーパスのバージョンを1.3から1.6まで更新した。また、国立国語研究所「現代日本語書き言葉均衡コーパス」の節境界ラベルデータ(BCCWJ-CBL)を学習データとして節境界を自動解析するプログラムを作成し(汎用タグ付けツールYamChaを利用した)、作文コーパスに対して節境界ラベルのアノテーションを行った。 これらの言語資源を利用して、文の長さや係り受けの距離と深さの数学的特性、統語的複雑性の数値化、節の種類の学齢による変化などに関する研究を行った。統語的複雑性の研究からは、ランダムに生成された構造における係り受け距離平均の分布は対数正規分布を示し、また文長の増大に従って冪的に増大するのに対して、自然言語においてはガンマ分布的であり、文長に伴う増大はランダム構造よりも抑制的であること、特に学齢が上がるほど長い係り受けは抑制的になること、一方で5文節未満の短い文では自然言語の方がランダム構造よりも係り受け距離が長くなる傾向があることなどが分かった。これらは児童の統語能力の発達が、複雑化と合理化の2つの発達の混合によって複雑に進行していることを示唆する。また節の種類の分析からは、等位構造から従位構造へ、話し言葉的な文体から書き言葉的な文体へという変化が学齢の上昇に伴って観察されることを、実証的に確認することができた。 これらの研究成果は3件の論文と1件の学会発表によって報告した。
|