• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

文体分析を目的としたコーパスの文書情報拡張及びその利用

Research Project

Project/Area Number 18K00634
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

加藤 祥  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)

Co-Investigator(Kenkyū-buntansha) 浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
Project Period (FY) 2018-04-01 – 2023-03-31
Keywordsコーパス / 文体 / 図書館分類
Outline of Annual Research Achievements

本年度は,主に分析用データの整備を開始したほか,一部情報付与を行ったデータを用い,分析を試行した。
1.書籍サンプルの情報拡張:BCCWJの書籍サンプル(約2万件)の持つNDC情報を形式区分まで拡張するため,国立国会図書館(NDL OPAC)データを収集し,NDC新訂10版(2017年公開)に基づくNDC形式区分3桁を追加した最大6桁とする作業を進めている。また,情報付与の完了したデータを用いることで,「随筆」ジャンルの文体分析を試みた。本進捗と「随筆」ジャンルの分析試行は,国語研究所の開催する「言語資源活用ワークショップ2018」において「『現代日本語書き言葉均衡コーパス』書籍サンプルに対するNDC記号拡張アノテーションとNDC形式区分を用いた「随筆」の文体分析」として発表を行った。
2.新聞サンプルの情報拡張:BCCWJの新聞サンプル(約1,500件)について,国立国語研究所がサンプル収集時に画像データとして保存している政治面や家庭面などの掲載面情報,インタビューや小説,商品紹介などのトピック情報を下位分類として付与を進めている。一部情報付与の完了したサンプルを用い,比喩情報の記事ジャンル分類を試みた。国際会議International Cognitive Linguistics Conference(ICLC 15)において成果を発表予定である。
3.小説サンプルの情報拡張:BCCWJの書籍サブコーパスに含まれる小説サンプル(合計約1万件の予測)に,詳細なジャンル分類情報を付与するため,各サンプルについてシリーズ名情報やレーベル情報の収集を開始した。具体的には,販売店などによる既存分類の調査と整理に着手した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

一次作業を開始し、一部の手作業や準備作業を進めたが、今後の作業に必要な資源の入手ができておらず、予定通りとまでは言い難い。

Strategy for Future Research Activity

1.書籍サンプルの情報拡張:NDCデータを入手次第、作業を進める。BCCWJのデータ更新時に,本研究成果の拡張情報を追加する予定である。また,拡張情報を用いた文体分析に取り組む。
2.新聞サンプルの情報拡張:一次作業が完了近いため,今後はBCCWJサンプルの記事情報開始位置を特定し,BCCWJとの対応付けを進める。BCCWJのデータ更新時に,本研究成果の拡張情報を追加する予定である。また,記事情報を用いた新聞記事種別の基礎データを作成する。
3.小説サンプルの情報拡張:「小説」の下位分類基準を策定する。また,小説サンプルすべてに対して,整理したジャンル情報の付与を行う。

Causes of Carryover

日本十進分類法の一部が古書として安価に入手できたが,現在まで品切れや販売停止などでデータの入手ができていないため,当該予定額が次年度に繰り越しとなった。入手可能となり次第,物品費が必要となる。また,若干予定より進行が遅れたが、試験的作業が完了次第、人件費・謝金を使用する。今後の計画では,クラウドソーシングを用いたデータ検証も行うため,主に謝金として使用予定である。

  • Research Products

    (1 results)

All 2018

All Presentation (1 results)

  • [Presentation] 『現代日本語書き言葉均衡コーパス』書籍サンプルに対するNDC記号拡張アノテーションとNDC形式区分を用いた「随筆」の文体分析2018

    • Author(s)
      加藤祥,櫻井芽衣子,森山奈々美,浅原正幸
    • Organizer
      言語資源活用ワークショップ2018

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi