2022 Fiscal Year Research-status Report
文体分析を目的としたコーパスの文書情報拡張及びその利用
Project/Area Number |
18K00634
|
Research Institution | Mejiro University |
Principal Investigator |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
Co-Investigator(Kenkyū-buntansha) |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, 教授 (80379528)
|
Project Period (FY) |
2018-04-01 – 2024-03-31
|
Keywords | コーパス / 文体 |
Outline of Annual Research Achievements |
2022年度は、特に『現代日本語書き言葉均衡コーパス』の書籍サンプルに含まれるすべての小説サンプルについて、小説の内容に関するジャンルや舞台設定等の分類情報(「推理」、「SF」、「アドベンチャー」「ロマンス」など)を付与した結果の整理を進めた。本作業手順と付与情報を国立国語研究所の開催した「言語資源ワークショップ2022」で「『現代日本語書き言葉均衡コーパス』書籍サブコーパスの小説サンプルに対するジャンル情報付与」として発表した。また、これらの情報付与結果を集計し、各分類の特徴分析を行ったほか、既存の文体指標との対照を行った。分析や調査の結果は、論考として投稿中である。なお、最終年度となる2023年度には、小説サンプルへの情報付与結果の公開を目指しており、公開準備のためのデータ整備を進めているところである。 また、2021年度までに情報付与を勧めた『現代日本語書き言葉均衡コーパス』の新聞サンプルデータを用い、「日本語学会2022年度春季大会」において「『現代日本語書き言葉均衡コーパス』における新聞記事種類の分布と典型的新聞記事の特徴」として、分析結果を発表した。評論や連載、催し案内などの様々な記事種類の分布とともに、典型的な新聞記事を抽出することが可能になったことを示した。これらの新聞サンプルへの情報付与とその結果について、データの整備を行うと同時に成果をまとめるなど、広く公開準備を進めた。学会発表のほか、フォーラムや研究会でも、付与した情報の利活用の実践例を示し、活用可能性を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2022年度までの作業成果公開とその利活用の試行を目指していたが、学会発表および論文投稿などの遅れにより、成果公開に至らず、2022年度中には課題が終了しなかった。
|
Strategy for Future Research Activity |
2023年度は最終年度として、これまでに付与した『現代日本語書き言葉均衡コーパス』新聞サブコーパスおよび書籍サブコーパスの小説サンプルに対する情報を公開可能な形に整備し、順次公開する予定である。また、投稿中の原稿の校正を進め、成果として論文を発表することを予定している。
|
Causes of Carryover |
公開準備の遅れにより、データ整備作業を予定していた予算や参考書籍のため予算が次年度使用額として残った。また、学会が延期やオンライン実施となったため、旅費を予定していた使用額も残る結果となった。次年度は、データ整備作業のための謝金、参考書籍類の物品費、現地開催学会への参加費や旅費が生じる予定である。
|
Research Products
(2 results)