2018 Fiscal Year Annual Research Report
日本語諸方言コーパスの構築とコーパスを使った方言研究の開拓
Project/Area Number |
16H01933
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
木部 暢子 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変異研究領域, 教授 (30192016)
|
Co-Investigator(Kenkyū-buntansha) |
日高 水穂 関西大学, 文学部, 教授 (80292358)
新田 哲夫 金沢大学, 歴史言語文化学系, 教授 (90172725)
椎名 渉子 名古屋市立大学, 大学院人間文化研究科, 准教授 (70765685)
田附 敏尚 神戸松蔭女子学院大学, 文学部, 准教授 (90645813)
五十嵐 陽介 一橋大学, 大学院社会学研究科, 准教授 (00549008)
三井 はるみ 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変異研究領域, 助教 (50219672)
井上 文子 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変異研究領域, 准教授 (90263186)
熊谷 康雄 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変異研究領域, 准教授 (30215016)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 方言コーパス / COJADSモニター版 / 方言の横断検索 / 方言談話資料 / 方言検索 / 日本のふるさとことば集成 |
Outline of Annual Research Achievements |
本研究は、(1)諸方言を横断的に検索する日本語諸方言コーパスを構築・公開すること、(2)コーパスを使って言語分析を行い、新しい方言研究の方法を提示すること、(3)方言データを整備することにより各地の消滅危機言語・方言の記録・保存・公開を行うことを目標としている。30年度は以下のことを実施した。 文化庁の「各地方言収集緊急調査」(1977~1985)のデータのうち、『日本のふるさとことば集成』(国書刊行会)として公開されている談話データを使って、『日本語諸方言コーパス(Corpus of Japanese Dialects; COJADS)』モニター版を公開した。COJADSモニター版は、コーパス検索アプリケーション「中納言」で検索するように構築されている。標準語検索と方言検索の両方が可能で、標準語検索では中納言の検索機能(書字形出現形、語彙素、品詞、活用型、活用形など)を使うことができる。方言検索は、現在のところ文字列検索のみ可能である。将来的には方言でも形態素情報による検索ができることを目指しているが、それには、方言ごとの形態素辞書を作る必要があり、検討中である。 COJADSモニター版の公開と並行して、COJADSのデータを拡張するための作業を行った。今年度、新たに「各地方言収集緊急調査」の未公開データ14時間分のネイティブ・チェック作業、および昨年度整備した25時間分のデータに対する音声・方言テキスト・標準語テキストのアラインメント作業、タグ付け作業を実施した。 方言コーパスを使った新しい方言研究を開拓するために、方言コーパス研究発表会「日本語諸方言コーパスデータを使った方言の分析」、コーパス合同シンポジウム「コーパスに見る日本語のバリエーション―モダリティ―」を開催し、構築中のCOJADSを使って方言分析を行った。また、その成果を国内外の学会で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度公開したCOJADSモニター版は、47都道府県にわたる24時間の自然談話よりなっている。今後、毎年データを拡張し、研究の最終年度までに75時間の談話データによるCOJADSを一般公開する。 COJADSモニター版を利用することにより、現在のCOJADSのデータ整理の問題点や検索の問題点がいくつか明らかとなった。たとえば、標準語検索は各地のバリエーションを比較する手段として非常に有効であるが、標準語を介して方言形を検索するため、標準語訳の付け方によって方言の検索が左右されるという問題がある。今後、これらを改善する方向でデータの整備を進めていくこととなった。 COJADSモニター版の作成により、『方言コーパス構築のための作業マニュアル』がかなり進展した。作業マニュアルは、多くの人が方言コーパスの作成に携わる際の作業基準となるものであるが、モニター版を作成することにより、昨年度作成した作業マニュアルをかなり改修した。改修にあたっては、国立国語研究所のコーパス開発センターや先行のコーパスプロジェクト、情報学の研究者から助言を受けた。 コーパスを使った新しい方言研究の開拓についても、COJADSモニター版の作成によりかなり進展した。たとえば、9月に方言コーパス研究発表会「日本語諸方言コーパスデータを使った方言の分析」、コーパス合同シンポジウム「コーパスに見る日本語のバリエーション―モダリティ-」を開催し、COJADSモニター版のデータを使った言語分析例を発表した。また、分析の結果を国際学会(LREC-2018、The NINJAL-SGRL-UHM Linguistics Workshop)や国内研究会(NINJALシンポジウム「データに基づく日本語研究」)で発表した。
|
Strategy for Future Research Activity |
今後、『日本語諸方言コーパス(COJADS)』のデータを拡張するために、データ整備作業をさらに進める。データ整備を効率的に行うためには、できるだけ作業を自動化する必要がある。標準語に関しては、音声を自動的に文字化するシステムの開発がかなり進んでおり、実用もされている。方言についても、方言音声と方言テキストの紐付けが自動的にできないか、今年度、テストを行った。今後、その結果を検証し、方言音声の自動処理化についてさらに検討を加え、可能なかぎり自動化を進めていく。なお、自動化に関しては、先行する諸コーパス(BCCWJ、 CSJ、CJH)の担当者や情報学の研究者の助言を受け、方言辞書の作成も視野に入れた検討を行う。 次に、コーパスを活用した方言研究を学界に広め、方言研究に新しい方法論を提示する。近年、コーパスに基づく言語研究や言語教育が主流となりつつあるが、COJADSモニター版の公開により、日本の方言研究もやっとその基盤が整った。今後はCOJADSモニター版の利用を拡大し、新しい方言研究の方法論と可能性を広めていく。そのためにCOJADSの利用マニュアルを充実させ、研究者が利用しやすい環境を整備していく。 諸方言コーパスは、研究者だけでなく一般の人のニーズも高いと思われる。したがって、一般の人も利用しやすいように、利用マニュアルを改善していく。さらに、海外からのアクセスにも対応できるよう、英語のマニュアルの整備も検討している。
|
Research Products
(37 results)