2020 Fiscal Year Research-status Report
大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
Project/Area Number |
19K23068
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2019-08-30 – 2022-03-31
|
Keywords | 児童作文コーパス / 形態論情報 / 節境界情報 / 機械学習 / アノテーション |
Outline of Annual Research Achievements |
昨年度実施予定だった形態論情報の修正作業は8月頃、今年度実施予定だった同様の作業は12月頃に完了し、「児童・生徒作文コーパス」の形態論データをver.1.5およびver.1.6に更新した。形態論情報を付与した後、節境界情報と項構造情報の付与作業を行う予定だったが、スケジュール的に実施が困難な見通しだったため予定を変更し、節境界情報は機械学習により自動付与を試み、項構造情報については本課題内では扱わないこととした。 この計画変更に伴い、形態論情報の構築作業と並行して機械学習による節境界情報の自動付与プログラムの開発を行なった。これは「現代日本語書き言葉均衡コーパス」の節境界ラベルデータ(BCCWJ-CBL)を訓練データとして汎用テキストタガーのYamChaで学習を行うもので、テストではF値で97%程度の精度が得られた。そこで、このプログラムを用いて作文コーパスの節境界ラベルデータを作成し、このデータを用いて学齢による節の使用状況の推移について統計的な分析を行なった。 これらの研究成果のうち、公開可能なデータ(節境界ラベル付与プログラム、作文コーパスにおける節境界ラベルデータ、統計分析のためのRスクリプト)はOpen Science Frameworkで公開した。また、OSFで公開したデータと関連する研究成果は言語学、言語教育を専門とする複数の研究者と議論した上でF1000 Researchに投稿し、現在公開準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
外部的な理由でコーパスの構築作業が遅れていたが、機械学習によるアノテーションを導入するなど計画の変更により、ほぼデータの構築は完了した。しかし、データの分析と研究成果の公開のために十分な時間を確保できなかったため、期間の延長を申請した。これによりプロジェクトの収束のために十分な余裕ができたので、現時点ではおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
データは完成したので、その分析と研究成果の公開を進める。当初想定していた項構造情報の付与については、本研究内では扱わないことにした。代わりに、接境界ラベルと係り受け構造(距離や深さなど)を組み合わせた分析を進めている。研究成果は学会および論文として公開し、また公開可能なデータはOSFなどのオープンリポジトリで公開したい。
|
Causes of Carryover |
当初計画より進捗が遅れたため、研究成果公開のための十分な時間的余裕がなく、期間を延長した。次年度使用額は主に成果公開のための経費(論文公開費、大会参加費、資料購入費など)として使用する。
|
Remarks |
F1000 Researchに論文を投稿中で公開は決定されているが、DOIがまだ付与されておらず、また公開後査読システムのため査読の有無を示し難いため本年度の成果としては記載しない。
|