• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実績報告書

日本語歴史コーパスに対する統語・意味情報アノテーション

研究課題

研究課題/領域番号 17H00917
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)

研究分担者 服部 隆  上智大学, 文学部, 教授 (10289598)
古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)
市村 太郎  常葉大学, 教育学部, 准教授 (10701352)
山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
宮内 佐夜香  中京大学, 文学部, 教授 (30508502)
池上 尚  埼玉大学, 教育学部, 准教授 (50739125)
岡 照晃  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
加藤 祥  目白大学, 外国語学部, 専任講師 (40623004)
研究期間 (年度) 2017-04-01 – 2022-03-31
キーワード分類語彙表 / Universal Dependencies
研究実績の概要

2020年度も引き続き『分類語彙表』の関連する言語資源整備を進めた。『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表(https://github.com/masayu-a/WLSP2iwanami)・『分類語彙表』の反対語情報データ(https://github.com/masayu-a/WLSP-antonym)を構築し公開した。『日本語歴史コーパス』に対する分類語彙表番号アノテーションにおいては、『今昔物語集』『国定読本(第2期)』を進めている。
さらに同データに基づく語義の自動推定手法について検討を行った。BERT に基づく文脈化単語埋め込みを『日本語歴史コーパス』に対して適用し、語義ラベルが文脈化単語埋め込み上にどのように分布するかについて検討を行った。他にも深層学習器に基づく語義の曖昧性解消手法及び現代語語義付きデータに基づく古典語への時代適応技術の検討を行った。同研究については、積極的に国際会議(LREC-2020 併設ワークショップ及び PACLIC)での発表を行った。また IPAL 辞書に利用可能性を検討するために、IPAL 形容詞例文の分析を進めた。
統語関連においては、引き続き UD Japanese-GSD の整備を進めた。2020年5月・11月と UD Japanese データの更新を行った。さらに、Universal Dependencies 国語研長単位に基づく UD Japanese の可能性について検討を行った。並行して、日本語話し言葉の文節係り受けデータについても整備を進めた。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

分類語彙表番号アノテーションについては着実にデータ量を増やしてきた。
また分類語彙表に関連するデータの拡充を進めた。

今後の研究の推進方策

引き続き分類語彙表番号アノテーションを続けるとともに、深層学習に基づく語義アノテーション支援手法について検討を行う。

  • 研究成果

    (8件)

すべて 2021 2020 その他

すべて 雑誌論文 (1件) 学会発表 (5件) (うち国際学会 3件) 備考 (2件)

  • [雑誌論文] Opposite Information Annotation on ‘Word List by Semantic Principles’2021

    • 著者名/発表者名
      Kato Sachi、Asahara Masayuki、Moriyama Nanami、Ogiwara Asami、Yamazaki Makoto
    • 雑誌名

      Journal of Natural Language Processing

      巻: 28 ページ: 60~81

    • DOI

      10.5715/jnlp.28.60

  • [学会発表] 多義語語義調査を目指した IPAL 形容詞例文への印象評定情報付与2021

    • 著者名/発表者名
      加藤祥,浅原正幸
    • 学会等名
      言語処理学会第27回年次大会(NLP2021)
  • [学会発表] 『日本語歴史コーパス』に対する文脈化単語埋め込みに基づく意味空間2020

    • 著者名/発表者名
      浅原正幸,加藤祥
    • 学会等名
      人文科学とコンピュータシンポジウム「じんもんこん2020」
  • [学会発表] Automatic Creation of Correspondence Table of Meaning Tags from Two Dictionaries in One Language Using Bilingual Embedding2020

    • 著者名/発表者名
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara, Hiroyuki Shinnou
    • 学会等名
      Proceedings of the 13th Workshop on Building and Using Comparable Corpora
    • 国際学会
  • [学会発表] Generation and Evaluation of Concept Embeddings Via Fine-Tuning Using Automatically Tagged Corpus2020

    • 著者名/発表者名
      Kanako Komiya, Daiki Yaginuma, Masayuki Asahara and Hiroyuki Shinnou
    • 学会等名
      Proceedings of the 34th Pacific Asia Conference on Language, Information and Computation (PACLIC 34)
    • 国際学会
  • [学会発表] Composing Word Vectors for Japanese Compound Words Using Bilingual Word Embeddings2020

    • 著者名/発表者名
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara and Hiroyuki Shinnou
    • 学会等名
      Proceedings of the 34th Pacific Asia Conference on Language, Information and Computation (PACLIC 34)
    • 国際学会
  • [備考] WLSP-antonym

    • URL

      https://github.com/masayu-a/WLSP-antonym

  • [備考] WLSP2iwanami

    • URL

      https://github.com/masayu-a/WLSP2iwanami

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi