2021 Fiscal Year Research-status Report
文体分析を目的としたコーパスの文書情報拡張及びその利用
Project/Area Number |
18K00634
|
Research Institution | Mejiro University |
Principal Investigator |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
Co-Investigator(Kenkyū-buntansha) |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | コーパス / 文体 |
Outline of Annual Research Achievements |
本研究で作成した『現代日本語書き言葉均衡コーパス』(以降BCCWJ)の書籍サンプルのNDC情報増補データを用い、語彙分布を整理した。言語資源活用ワークショップ2021において、「『現代日本語書き言葉均衡コーパス』出版書籍サンプルのNDC別語彙分布」として発表を行った。言語資源の公開も進めている。このほか、「『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC 情報増補―NDC 情報を用いた随筆の抽出と文体調査―」として『国立国語研究所論集』21巻に論文の投稿を行った。作成データを用いた研究成果の公開を進めている。 また、本研究でBCCWJの新聞サンプルに対してこれまでに付与した記事情報データを用い、ジャンル別の語彙分布を調査した。本件についても言語資源活用ワークショップ2021において「『現代日本語書き言葉均衡コーパス』新聞記事情報を用いたジャンル別語彙分布」として発表を行った。さらに、新聞記事情報を用いた記事種別の調査を進めている。データの公開を目指した整理を行っているところである。整理が終わり次第、順次公開をする予定である。2022年度の学会発表に向けた発表準備も進めている。 このほか、本年度は、BCCWJの書籍サンプルに含まれる小説サンプルに対する情報付与作業を進めている。作業を予定している全データの2/3程度まで進行しており、最終年度中の付与を予定している。作業が完了した後は、データそのもののほか、データの作成や作成データを用いた調査内容を学会発表や論文投稿により、広く公開する。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型コロナウィルスの感染状況への対応により、予定していた作業時間や作業人員が確保できなかったため、作業の進行にやや遅れが見られる。
|
Strategy for Future Research Activity |
本年度までに情報付与作業を完了させたかったデータが、作業の進行の遅れにより、一部残ってしまった。速やかに作業を完了させ、データの整理を進めるため、クラウドソーシングサービスを用いたデータ確認の計画を策定している。データが完成次第、公開の準備を進めるとともに、データの分析を進め、学会発表や論文投稿を行う予定である。
|
Causes of Carryover |
国内会議がオンラインで実施され、国際会議もオンライン実施または延期となったため、使用を予定していた旅費が一切発生しなかった。予定通りの作業進行がかなわず、謝金やクラウドソーシングサービス使用料が発生しなかった。最終年度には、遅れの生じた作業を完了させるため、作業計画を見直すとともに、クラウドソーシングサービスを用いた確認作業や判定作業のために使用する。
|
Research Products
(5 results)