2021 Fiscal Year Research-status Report
大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
Project/Area Number |
19K23068
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2019-08-30 – 2023-03-31
|
Keywords | 児童作文コーパス / 形態論情報 / 節境界情報 / 係り受け情報 / 係り受け距離 |
Outline of Annual Research Achievements |
昨年度までに更新が完了した「児童・生徒作文コーパス」形態論データver.1.6および節境界ラベルデータを用いて児童作文の語彙・文法に関する研究を行った。昨年度は学齢による節の使用状況の推移について研究を行い、論文の公開準備を進めていたが、この論文は今年度に査読が終了し、2021年7月に公開された。 今年度は文の統語的複雑性を計量的に評価する手法に関する研究を行った。単語数nの文における可能な統語木のパターン数はカタラン数で計算できることが知られている。カタラン数は階乗式で計算することができるが、漸化式として表現することもできる。これを参考にして、文節数n、係り受け距離和mの文における可能な係り受け構造のパターン数と、同様に文節数n、階層係り受け距離和mの文におけるパターン数を求める漸化式を求めた(日本語の規範的な構造として、係り受けは交差せず、常に右側に係るものとした)。この結果、両式はいずれも共通の漸化式f(n,m)で表現できること、f(n,x)の分布は対数正規分布になること、文節数nの文におけるmの期待値はべき乗則に従うことなどが分かった。これは係り受け構造の複雑さをlog(m)=a+b*log(n)として線形回帰によって分析できることを示唆する。 これに基づいて現代日本語書き言葉均衡コーパス、および児童・生徒作文コーパスにおける係り受け構造の複雑さを線形混合モデルで評価する研究を行い、言語資源活用ワークショップ2021で報告した。併せて2編の論文の公開を計画していたが、公開に至らなかった。引き続き、論文公開の準備を進める。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
コーパスの構築は既に終了しており、論文を公開して研究を終了する予定だったが、研究外の業務の増大のため十分な研究時間を確保できなかった。
|
Strategy for Future Research Activity |
予定していた論文の公開準備を進める。
|
Causes of Carryover |
論文投稿の費用を15万程度として、若干の余裕を残して予算を残していたが、投稿を翌年度に見送ったため。
|