大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
Project/Area Number |
19K23068
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
0102:Literature, linguistics, and related fields
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2019-08-30 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2019: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 作文コーパス / 係り受け距離 / 児童作文コーパス / 形態論情報 / 節境界情報 / 係り受け情報 / 機械学習 / アノテーション / コーパス / 作文 / 埋め込み節 / 児童作文 / 文の複雑さ |
Outline of Research at the Start |
国語教育への応用を目的として、文の統語的な複雑さを計量的に評価する手法の研究を行う。本研究では特に語や文節ではなく節を単位とす る文構造の複雑性に注目し、並列節よりも埋め込み節 (名詞節・連体節) の方が認知的負荷が大きいという仮定に基づき、150 万語規模の児童作文コーパスに対する節情報などの付与と、統計的および質的分析を実施し、児童の言語発達と埋め込み節の頻度、深さ、機能などの関係を計量的に明らかにする。
|
Outline of Annual Research Achievements |
構築したコーパスを用いた応用的研究の一環として、係り受け距離の分布に関する数理的な研究を行った。自然言語においては、距離の長い係り受けは認知的負荷が大きいため、語順を変えるなどして長い係り受けを避ける傾向があることが知られている。そこで、作文コーパスにおける係り受け構造とランダムに生成した係り受け構造を比較し、係り受け距離の分布を調べた。 その結果、同じ長さの文における係り受け距離平均の分布は、ランダムな構造においてはほぼ綺麗な対数正規分布になるが、自然言語においてはガンマ分布に接近することが分かった。また、文の長さと連動して係り受け距離平均の平均がどのように変化するかを調べたところ、ランダムな構造では係り受け距離平均が文長に対して冪的に増加するのに対して、自然言語においては対数的に増加することが分かった。これは自然言語の構造における係り受け距離の増大がランダムな構造よりも抑制的であることを示唆している。一般化線形混合モデル分析の結果からは、小学校中学年以降、学齢が上がるほど抑制的な傾向が顕著になることが確認された。一方で、5文節未満のごく短い文においては、自然言語の方がランダム構造よりも係り受け距離が長くなる傾向も確認された。 自然言語における係り受け距離がランダムな場合と比べて抑制的であることは既知の事実だったが、日本語のコーパスでよく用いられる文節係り受け構造における係り受け距離平均のモデルを構築した点がこの研究の意義と言える。研究成果は論文化し、投稿した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
論文投稿のタイミングの都合により計画を再延長したが、研究は概ね完了した。
|
Strategy for Future Research Activity |
予定の研究は概ね完了した。今後は、構築したデータやモデルを活用した応用的研究を進めたい。
|
Report
(4 results)
Research Products
(4 results)