大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
Project/Area Number |
19K23068
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
0102:Literature, linguistics, and related fields
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2019-08-30 – 2022-03-31
|
Project Status |
Granted (Fiscal Year 2020)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2019: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 児童作文コーパス / 形態論情報 / 節境界情報 / 機械学習 / アノテーション / コーパス / 作文 / 埋め込み節 / 児童作文 / 文の複雑さ |
Outline of Research at the Start |
国語教育への応用を目的として、文の統語的な複雑さを計量的に評価する手法の研究を行う。本研究では特に語や文節ではなく節を単位とす る文構造の複雑性に注目し、並列節よりも埋め込み節 (名詞節・連体節) の方が認知的負荷が大きいという仮定に基づき、150 万語規模の児童作文コーパスに対する節情報などの付与と、統計的および質的分析を実施し、児童の言語発達と埋め込み節の頻度、深さ、機能などの関係を計量的に明らかにする。
|
Outline of Annual Research Achievements |
昨年度実施予定だった形態論情報の修正作業は8月頃、今年度実施予定だった同様の作業は12月頃に完了し、「児童・生徒作文コーパス」の形態論データをver.1.5およびver.1.6に更新した。形態論情報を付与した後、節境界情報と項構造情報の付与作業を行う予定だったが、スケジュール的に実施が困難な見通しだったため予定を変更し、節境界情報は機械学習により自動付与を試み、項構造情報については本課題内では扱わないこととした。 この計画変更に伴い、形態論情報の構築作業と並行して機械学習による節境界情報の自動付与プログラムの開発を行なった。これは「現代日本語書き言葉均衡コーパス」の節境界ラベルデータ(BCCWJ-CBL)を訓練データとして汎用テキストタガーのYamChaで学習を行うもので、テストではF値で97%程度の精度が得られた。そこで、このプログラムを用いて作文コーパスの節境界ラベルデータを作成し、このデータを用いて学齢による節の使用状況の推移について統計的な分析を行なった。 これらの研究成果のうち、公開可能なデータ(節境界ラベル付与プログラム、作文コーパスにおける節境界ラベルデータ、統計分析のためのRスクリプト)はOpen Science Frameworkで公開した。また、OSFで公開したデータと関連する研究成果は言語学、言語教育を専門とする複数の研究者と議論した上でF1000 Researchに投稿し、現在公開準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
外部的な理由でコーパスの構築作業が遅れていたが、機械学習によるアノテーションを導入するなど計画の変更により、ほぼデータの構築は完了した。しかし、データの分析と研究成果の公開のために十分な時間を確保できなかったため、期間の延長を申請した。これによりプロジェクトの収束のために十分な余裕ができたので、現時点ではおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
データは完成したので、その分析と研究成果の公開を進める。当初想定していた項構造情報の付与については、本研究内では扱わないことにした。代わりに、接境界ラベルと係り受け構造(距離や深さなど)を組み合わせた分析を進めている。研究成果は学会および論文として公開し、また公開可能なデータはOSFなどのオープンリポジトリで公開したい。
|
Report
(2 results)
Research Products
(1 results)