2019 Fiscal Year Annual Research Report
昭和・平成書き言葉コーパスによる近現代日本語の実証的研究
Project/Area Number |
19H00531
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
小椋 秀樹 立命館大学, 文学部, 教授 (00321547)
間淵 洋子 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 特任助教 (10415614)
松田 謙次郎 神戸松蔭女子学院大学, 文学部, 教授 (40263636)
永澤 済 名古屋大学, 国際機構, 准教授 (50613882)
持橋 大地 統計数理研究所, 数理・推論研究系, 准教授 (80418508)
田中 牧郎 明治大学, 国際日本学部, 専任教授 (90217076)
金 愛蘭 日本大学, 文理学部, 准教授 (90466227)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | コーパス / 近現代語 / 言語変化 / 言語資源 / 日本語学 / 自然言語処理 |
Outline of Annual Research Achievements |
本研究課題の目的は、明治から現代までを通じた日本語の変化を実証的に研究するために、『日本語歴史コーパス(CHJ)』と『現代日本語書き言葉均衡コーパス(BCCWJ)』とをつなぐ書き言葉のコーパスとして、この間の時期の雑誌・新聞・書籍を収録する「昭和・平成書き言葉コーパス」を構築するとともに、実際にこれを用いた研究を行うことである。 コーパスの構築作業として、今年度はコーパスの一部となる雑誌のデータとして、これまでに準備してきたものとあわせて1933年から1989年まで8年おき各年12冊ぶんのテキストデータを作成し、そのXML化に取り組んだ。また、新聞データとして、1933年から1989年まで8年おきのテキストデータの一部を作成した。書籍データは、ベストセラー目録をもとに収録対象を選定した。 コーパスを用いた研究活動としては、研究分担者が各々でこれまでに行ってきた研究成果を持ち寄って紹介し、今後構築するコーパスの活用方法について検討した。言語変化の統計モデル化に関する研究は、国立国語研究所の共同研究プロジェクト「現代語の意味の変化に対する計算的・統計力学的アプローチ」(リーダー:持橋大地)と共同で研究活動を行い、単語分散表現を用いた意味変化の研究を行った。このほか、構築中のコーパスを研究利用するためのデータベースの準備を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定通り、コーパスの構築については、雑誌のテキスト入力とXML化、新聞のテキスト入力、書籍の資料収集とサンプリングを行い、概ね予定通りの進捗を得た。研究成果の発表会については、新型コロナウイルスの影響により1回の開催にとどまったものの、構築中のコーパスを研究利用するためのデータベースを整備して今後の活動のための準備を整えた。
|
Strategy for Future Research Activity |
コーパスの構築作業は概ね予定通り進捗しているため、今後も計画通り進めていく。ただし、予定しているコーパスのサイズは予算規模に比して大きいため、実現可能な範囲を見定めてテキスト量の調整を行う。2020年度からは研究分担者を増員して雑誌と書籍のデータ構築体制を強化し、雑誌データのテキスト整備と形態素解析、新聞データのテキスト入力とXML化、書籍のOCR試行等を中心に行う。 コーパスを活用した研究の発表会についてはオンラインでの開催を基本とし、構築したデータの利用のための講習とあわせて年2回程度開催する。
|
Research Products
(3 results)