研究実績の概要 |
昨年度までに更新が完了した「児童・生徒作文コーパス」形態論データver.1.6および節境界ラベルデータを用いて児童作文の語彙・文法に関する研究を行った。昨年度は学齢による節の使用状況の推移について研究を行い、論文の公開準備を進めていたが、この論文は今年度に査読が終了し、2021年7月に公開された。 今年度は文の統語的複雑性を計量的に評価する手法に関する研究を行った。単語数nの文における可能な統語木のパターン数はカタラン数で計算できることが知られている。カタラン数は階乗式で計算することができるが、漸化式として表現することもできる。これを参考にして、文節数n、係り受け距離和mの文における可能な係り受け構造のパターン数と、同様に文節数n、階層係り受け距離和mの文におけるパターン数を求める漸化式を求めた(日本語の規範的な構造として、係り受けは交差せず、常に右側に係るものとした)。この結果、両式はいずれも共通の漸化式f(n,m)で表現できること、f(n,x)の分布は対数正規分布になること、文節数nの文におけるmの期待値はべき乗則に従うことなどが分かった。これは係り受け構造の複雑さをlog(m)=a+b*log(n)として線形回帰によって分析できることを示唆する。 これに基づいて現代日本語書き言葉均衡コーパス、および児童・生徒作文コーパスにおける係り受け構造の複雑さを線形混合モデルで評価する研究を行い、言語資源活用ワークショップ2021で報告した。併せて2編の論文の公開を計画していたが、公開に至らなかった。引き続き、論文公開の準備を進める。
|