研究課題/領域番号 |
17H00917
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 准教授 (80379528)
|
研究分担者 |
服部 隆 上智大学, 文学部, 教授 (10289598)
古宮 嘉那子 茨城大学, 工学部, 講師 (10592339)
市村 太郎 常葉大学, 教育学部, 講師 (10701352)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
宮内 佐夜香 中京大学, 文学部, 准教授 (30508502)
池上 尚 埼玉大学, 教育学部, 准教授 (50739125)
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 助教 (50782942)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
キーワード | コーパス / 係り受け / 分類語彙表 |
研究実績の概要 |
統語情報と意味情報の2つに分けて研究実績を示す。 統語情報は先行して実施した科研費萌芽「近代語コーパスに対する統語情報アノテーションの基準策定」(平成27―28年度)で作成した、明六雑誌に対する係り受け・述語項構造アノテーションデータを、国際的な依存構造アノテーション規格である Universal Dependencies に適合させ、JADH-2017 で発表を行った。同じ基準で作成した「現代日本語書き言葉均衡コーパス」のデータとともに CoNLL-2018 の Shared Task で利用してもらうべく、2018年3月に一般公開を行った。 意味情報は、上半期に平安時代のデータ(竹取物語・土左日記)に対する分類語彙表番号アノテーションを進め JADH-2017 で発表を行った。下半期に鎌倉時代のデータ(方丈記・徒然草)に対する分類語彙表番号アノテーションを進めた。対照データとして「現代日本語書き言葉均衡コーパス」に対する分類語彙表アノテーションを進めた。 また「分類語彙表増補改訂版」と 「UniDic」 語彙素番号の対応表を作成し、Windows から利用可能な GUI ChaMame を構築した。ChaMame を利用することにより、人文系の研究者がプログラムを書かずに分類語彙表番号の自動付与ができるようになった。並行して「古典対照分類語彙表」と UniDic 語彙素番号の対応表の整備を進めている。 さらに日本語歴史コーパスを含むコーパスの利用講習会を行った。コーパス利用講習会についてはビデオ収録の検討を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
統語情報については、近代語について係り受けアノテーションのデータを対外公開できた。 意味情報については、平安・鎌倉期の作品それぞれ2作品ずつ分類語彙表番号アノテーションを進めた。対照データとして現代日本語書き言葉均衡コーパスに対する分類語彙表アノテーションを進めた。 また分類語彙表番号と UniDic の語彙素番号の対応表を公開し、今後の意味情報アノテーションの効率化に利用可能である。 上記3点については大幅に進んだが、時間情報アノテーションについては手つかずの状況である。
|
今後の研究の推進方策 |
平成30年度は、以下の作業を進めるとともに対外発表を行う。 古典対照分類語彙表と UniDic の対応表の作成を進める。 統語情報については、近代語(国定読本)および現代語(現代日本語書き言葉均衡コーパス)に対する節境界アノテーションを進める。 意味情報については、近代語(国定読本)に対する分類語彙表アノテーションを進める。 また昨年度構築した言語資源に関する対外発表を行う。 さらにコーパスに関する講習会を実施するとともに、講習会ビデオを作成する。
|