• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

文体分析を目的としたコーパスの文書情報拡張及びその利用

Research Project

Project/Area Number 18K00634
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

加藤 祥  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)

Co-Investigator(Kenkyū-buntansha) 浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
Project Period (FY) 2018-04-01 – 2023-03-31
Keywordsコーパス / 文体 / 図書館分類
Outline of Annual Research Achievements

本年度は,2018年度の試行結果に基づき,書籍サンプルの情報拡張に注力した。BCCWJの書籍サンプル(約2万件)の持つNDC情報を形式区分まで拡張した。具体的には,国立国会図書館(NDL OPAC)データを収集し,NDC新訂10版(2017年公開)に基づくNDC形式区分3桁を追加した最大6桁とする作業を完了した。本作業内容は,国語研究所の開催する「言語資源活用ワークショップ2019」において「『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補」として発表を行った。
このほか,新聞サンプルの情報拡張として,BCCWJの新聞サンプル(約1,500件)につき,各サンプルを記事へ分割する作業を行ったほか,一部のデータについてトピックや文体情報などの付与作業を行った。これらの作業試行を行ったサンプルを用い,比喩情報の記事ジャンル分類を試み,国際会議International Cognitive Linguistics Conference(ICLC 15)において,「Exploring metaphorical expressions in Japanese newspaper-article corpora」として発表した。また,書籍『認知言語学の羽ばたき― 実証性の高い言語研究を目指して ―』に「日本語比喩情報付与コーパスの作成と新聞における比喩実態調査の試み」として発表した。
なお,小説サンプルの情報拡張については,販売店などによる既存分類の収集に取りかかっている。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

書籍サンプルのNDC拡張作業を完了した。書籍サンプルについては順調な進捗といえる。しかし,新聞サンプルはいまだ試行段階であり,小説サンプルについては大きな進捗がなかった。

Strategy for Future Research Activity

1.書籍サンプルの情報拡張:予定していた作業が完了したため,BCCWJ使用者にデータを広く公開する。また,BCCWJのデータ更新時に,検索ツールでも利用可能となるよう研究成果の拡張情報を追加し,拡張情報を用いた文体分析に取り組みやすい環境を目指す。
2.新聞サンプルの情報拡張:情報付与作業を進め,作業を完了させ次第,記事情報を用いた新聞記事種別の基礎データ集計を行う。BCCWJのデータ更新時に,本研究成果の拡張情報を追加するための調整を行う。
3.小説サンプルの情報拡張:既存データの収集を完了し,分類基準の整理を行う。BCCWJの小説サンプルすべてに対し,情報の付与を進める。

Causes of Carryover

進捗がやや遅れているため,作業機器の購入は行ったものの,予定していた大規模作業に至らなかったこと,クラウドソーシングサービスを用いた検証に至らなかったことから,計画通りの使用とはならなかった。進捗の遅れに伴う作業や検証は次年度以降に継続し,未使用分も含めて使用する予定である。

  • Research Products

    (3 results)

All 2020 2019

All Presentation (2 results) Book (1 results)

  • [Presentation] 『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補2019

    • Author(s)
      加藤祥,森山奈々美,浅原正幸
    • Organizer
      言語資源活用ワークショップ2019
  • [Presentation] Exploring metaphorical expressions in Japanese newspaper-article corpora2019

    • Author(s)
      Sachi Kato, Masayuki Asahara
    • Organizer
      The 15th International Cognitive Linguistics Conference
  • [Book] 認知言語学の羽ばたき2020

    • Author(s)
      松本曜, Dan I. Slobin, 吉成祐子・アンナ = ボルジロフスカヤ・江口清子・眞野美穂, 高橋清子, 森下裕三, Kimi Akita, 陳奕廷, Hirotaka Nakajima, Kohei Suzuki, 篠原和子・松中義大, 加藤祥, 有薗智美, 夏海燕
    • Total Pages
      212
    • Publisher
      開拓社
    • ISBN
      978-4-7589-2284-5

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi