2018 Fiscal Year Research-status Report
文体分析を目的としたコーパスの文書情報拡張及びその利用
Project/Area Number |
18K00634
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
|
Co-Investigator(Kenkyū-buntansha) |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | コーパス / 文体 / 図書館分類 |
Outline of Annual Research Achievements |
本年度は,主に分析用データの整備を開始したほか,一部情報付与を行ったデータを用い,分析を試行した。 1.書籍サンプルの情報拡張:BCCWJの書籍サンプル(約2万件)の持つNDC情報を形式区分まで拡張するため,国立国会図書館(NDL OPAC)データを収集し,NDC新訂10版(2017年公開)に基づくNDC形式区分3桁を追加した最大6桁とする作業を進めている。また,情報付与の完了したデータを用いることで,「随筆」ジャンルの文体分析を試みた。本進捗と「随筆」ジャンルの分析試行は,国語研究所の開催する「言語資源活用ワークショップ2018」において「『現代日本語書き言葉均衡コーパス』書籍サンプルに対するNDC記号拡張アノテーションとNDC形式区分を用いた「随筆」の文体分析」として発表を行った。 2.新聞サンプルの情報拡張:BCCWJの新聞サンプル(約1,500件)について,国立国語研究所がサンプル収集時に画像データとして保存している政治面や家庭面などの掲載面情報,インタビューや小説,商品紹介などのトピック情報を下位分類として付与を進めている。一部情報付与の完了したサンプルを用い,比喩情報の記事ジャンル分類を試みた。国際会議International Cognitive Linguistics Conference(ICLC 15)において成果を発表予定である。 3.小説サンプルの情報拡張:BCCWJの書籍サブコーパスに含まれる小説サンプル(合計約1万件の予測)に,詳細なジャンル分類情報を付与するため,各サンプルについてシリーズ名情報やレーベル情報の収集を開始した。具体的には,販売店などによる既存分類の調査と整理に着手した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
一次作業を開始し、一部の手作業や準備作業を進めたが、今後の作業に必要な資源の入手ができておらず、予定通りとまでは言い難い。
|
Strategy for Future Research Activity |
1.書籍サンプルの情報拡張:NDCデータを入手次第、作業を進める。BCCWJのデータ更新時に,本研究成果の拡張情報を追加する予定である。また,拡張情報を用いた文体分析に取り組む。 2.新聞サンプルの情報拡張:一次作業が完了近いため,今後はBCCWJサンプルの記事情報開始位置を特定し,BCCWJとの対応付けを進める。BCCWJのデータ更新時に,本研究成果の拡張情報を追加する予定である。また,記事情報を用いた新聞記事種別の基礎データを作成する。 3.小説サンプルの情報拡張:「小説」の下位分類基準を策定する。また,小説サンプルすべてに対して,整理したジャンル情報の付与を行う。
|
Causes of Carryover |
日本十進分類法の一部が古書として安価に入手できたが,現在まで品切れや販売停止などでデータの入手ができていないため,当該予定額が次年度に繰り越しとなった。入手可能となり次第,物品費が必要となる。また,若干予定より進行が遅れたが、試験的作業が完了次第、人件費・謝金を使用する。今後の計画では,クラウドソーシングを用いたデータ検証も行うため,主に謝金として使用予定である。
|
Research Products
(1 results)