研究課題/領域番号 |
18K00634
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
|
研究分担者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | コーパス / 文体 / 図書館分類 |
研究実績の概要 |
本年度は,2018年度の試行結果に基づき,書籍サンプルの情報拡張に注力した。BCCWJの書籍サンプル(約2万件)の持つNDC情報を形式区分まで拡張した。具体的には,国立国会図書館(NDL OPAC)データを収集し,NDC新訂10版(2017年公開)に基づくNDC形式区分3桁を追加した最大6桁とする作業を完了した。本作業内容は,国語研究所の開催する「言語資源活用ワークショップ2019」において「『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補」として発表を行った。 このほか,新聞サンプルの情報拡張として,BCCWJの新聞サンプル(約1,500件)につき,各サンプルを記事へ分割する作業を行ったほか,一部のデータについてトピックや文体情報などの付与作業を行った。これらの作業試行を行ったサンプルを用い,比喩情報の記事ジャンル分類を試み,国際会議International Cognitive Linguistics Conference(ICLC 15)において,「Exploring metaphorical expressions in Japanese newspaper-article corpora」として発表した。また,書籍『認知言語学の羽ばたき― 実証性の高い言語研究を目指して ―』に「日本語比喩情報付与コーパスの作成と新聞における比喩実態調査の試み」として発表した。 なお,小説サンプルの情報拡張については,販売店などによる既存分類の収集に取りかかっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
書籍サンプルのNDC拡張作業を完了した。書籍サンプルについては順調な進捗といえる。しかし,新聞サンプルはいまだ試行段階であり,小説サンプルについては大きな進捗がなかった。
|
今後の研究の推進方策 |
1.書籍サンプルの情報拡張:予定していた作業が完了したため,BCCWJ使用者にデータを広く公開する。また,BCCWJのデータ更新時に,検索ツールでも利用可能となるよう研究成果の拡張情報を追加し,拡張情報を用いた文体分析に取り組みやすい環境を目指す。 2.新聞サンプルの情報拡張:情報付与作業を進め,作業を完了させ次第,記事情報を用いた新聞記事種別の基礎データ集計を行う。BCCWJのデータ更新時に,本研究成果の拡張情報を追加するための調整を行う。 3.小説サンプルの情報拡張:既存データの収集を完了し,分類基準の整理を行う。BCCWJの小説サンプルすべてに対し,情報の付与を進める。
|
次年度使用額が生じた理由 |
進捗がやや遅れているため,作業機器の購入は行ったものの,予定していた大規模作業に至らなかったこと,クラウドソーシングサービスを用いた検証に至らなかったことから,計画通りの使用とはならなかった。進捗の遅れに伴う作業や検証は次年度以降に継続し,未使用分も含めて使用する予定である。
|