2022 Fiscal Year Research-status Report
大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
Project/Area Number |
19K23068
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2019-08-30 – 2024-03-31
|
Keywords | 作文コーパス / 係り受け距離 |
Outline of Annual Research Achievements |
構築したコーパスを用いた応用的研究の一環として、係り受け距離の分布に関する数理的な研究を行った。自然言語においては、距離の長い係り受けは認知的負荷が大きいため、語順を変えるなどして長い係り受けを避ける傾向があることが知られている。そこで、作文コーパスにおける係り受け構造とランダムに生成した係り受け構造を比較し、係り受け距離の分布を調べた。 その結果、同じ長さの文における係り受け距離平均の分布は、ランダムな構造においてはほぼ綺麗な対数正規分布になるが、自然言語においてはガンマ分布に接近することが分かった。また、文の長さと連動して係り受け距離平均の平均がどのように変化するかを調べたところ、ランダムな構造では係り受け距離平均が文長に対して冪的に増加するのに対して、自然言語においては対数的に増加することが分かった。これは自然言語の構造における係り受け距離の増大がランダムな構造よりも抑制的であることを示唆している。一般化線形混合モデル分析の結果からは、小学校中学年以降、学齢が上がるほど抑制的な傾向が顕著になることが確認された。一方で、5文節未満のごく短い文においては、自然言語の方がランダム構造よりも係り受け距離が長くなる傾向も確認された。 自然言語における係り受け距離がランダムな場合と比べて抑制的であることは既知の事実だったが、日本語のコーパスでよく用いられる文節係り受け構造における係り受け距離平均のモデルを構築した点がこの研究の意義と言える。研究成果は論文化し、投稿した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
論文投稿のタイミングの都合により計画を再延長したが、研究は概ね完了した。
|
Strategy for Future Research Activity |
予定の研究は概ね完了した。今後は、構築したデータやモデルを活用した応用的研究を進めたい。
|
Causes of Carryover |
残額は全て論文公開費に充てる予定だったが、論文作成に時間がかかったため翌年度に繰り越しとなった。論文は既に受理されており、残額は直ちに論文公開に係る経費に使用する。
|