• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

日本語歴史コーパスに対する統語・意味情報アノテーション

Research Project

Project/Area Number 17H00917
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)

Co-Investigator(Kenkyū-buntansha) 服部 隆  上智大学, 文学部, 教授 (10289598)
古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)
市村 太郎  常葉大学, 教育学部, 講師 (10701352)
山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
宮内 佐夜香  中京大学, 文学部, 准教授 (30508502)
池上 尚  埼玉大学, 教育学部, 准教授 (50739125)
岡 照晃  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
Project Period (FY) 2017-04-01 – 2022-03-31
Keywordsコーパス / アノテーション
Outline of Annual Research Achievements

平成31年度は主に『分類語彙表』の関連する言語資源整備を進めた。
『分類語彙表』に対する位相情報アノテーション(NLP2019 言語資源賞受賞)を整備し、公開した。『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表を構築し、令和2年度中に公開予定である。
『日本語歴史コーパス』に対する分類語彙表番号アノテーションにおいては、『宇治拾遺物語』『国定読本(第1期)』に対する作業が完了し、『今昔物語集』『国定読本(第2期)』に対する作業に着手した。並行して行った『現代日本語書き言葉コーパス』に対する分類語彙表番号アノテーションおよび助動詞の用法アノテーションについて公開を行った。
語義推定の自動化を進めるために自然言語処理の事前学習フレームワーク BERT の日本語モデル NWJC-BERT を構築し、文脈化単語埋め込み情報出力環境を整備した。具体的には『国語研日本語ウェブコーパス』 250億語に基づき訓練を行い、『現代日本語書き言葉コーパス』に対する文脈化単語埋め込み情報付与作業を実施した。同データ BERTed-BCCWJ は NLP2020 言語資源賞を受賞した。『日本語歴史コーパス』に対しても同モデルで文脈化単語埋め込み情報を付与(BERTed-CHJ)し、その概要について日本語学会2020年度春季大会で発表予定である。
統語関連においては、UD Japanese-GSD の再整備を進めた。2020年5月のリリースに向けて作業を継続している。また近代語に対する長単位・係り受け情報アノテーションについて検討を進めた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

分類語彙表番号アノテーションについては着実にデータ量を増やしてきた。
統語情報については近代語を中心に検討を続けたい。

Strategy for Future Research Activity

引き続き分類語彙表番号アノテーションを続けるとともに、BERT に基づく語義アノテーション支援手法について検討を行う。
統語情報については『国定読本』に対する長単位情報付与を検討する。

  • Research Products

    (24 results)

All 2020 2019

All Journal Article (10 results) (of which Peer Reviewed: 8 results,  Open Access: 8 results) Presentation (14 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Bayesian Linear Mixed Model による単語親密度推定と位相情報付与2020

    • Author(s)
      浅原 正幸
    • Journal Title

      自然言語処理

      Volume: 27,1 Pages: 133-150

    • Peer Reviewed / Open Access
  • [Journal Article] 自然言語処理-言語資源・意味解析-2020

    • Author(s)
      松林 優一郎,浅原 正幸
    • Journal Title

      人工知能

      Volume: 35.1 Pages: 89-105

  • [Journal Article] 尾崎紅葉『多情多恨 前編』における文章展開―節(clause)を用いた文体分析の試み(七)―2020

    • Author(s)
      服部 隆
    • Journal Title

      上智大学国文学科紀要

      Volume: 37 Pages: 266-249

    • Open Access
  • [Journal Article] 読み時間と統語・意味分類2019

    • Author(s)
      浅原 正幸,加藤 祥
    • Journal Title

      認知科学

      Volume: 26,2 Pages: 219-230

    • DOI

      doi.org/10.11225/jcss.26.219

    • Peer Reviewed / Open Access
  • [Journal Article] 日本語の読み時間と節境界情報ー主辞後置言語における wrap-up effect の検証2019

    • Author(s)
      浅原 正幸
    • Journal Title

      自然言語処理

      Volume: 26,2 Pages: 301-328

    • DOI

      doi.org/10.5715/jnlp.26.301

    • Peer Reviewed / Open Access
  • [Journal Article] 概念辞書の類義語と分散表現を利用した教師なし all-words WSD2019

    • Author(s)
      鈴木 類,古宮 嘉那子,浅原 正幸,佐々木 稔,新納 浩幸
    • Journal Title

      自然言語処理

      Volume: 26,2 Pages: 361-380

    • DOI

      doi.org/10.5715/jnlp.26.361

    • Peer Reviewed / Open Access
  • [Journal Article] 単語埋め込みに基づくサプライザル2019

    • Author(s)
      浅原 正幸
    • Journal Title

      自然言語処理

      Volume: 26,3 Pages: 635-652

    • DOI

      doi.org/10.5715/jnlp.26.635

    • Peer Reviewed / Open Access
  • [Journal Article] 分類語彙表番号を付与した『現代日本語書き言葉均衡コーパス』の書籍・新聞・雑誌データ2019

    • Author(s)
      加藤 祥,浅原 正幸,山崎 誠
    • Journal Title

      日本語の研究

      Volume: 15,2 Pages: 134-144

    • DOI

      doi.org/10.20666/nihongonokenkyu.15.2_134

    • Peer Reviewed / Open Access
  • [Journal Article] Word Familiarity Rate Estimation by Bayesian Linear Mixed Model2019

    • Author(s)
      Masayuki Asahara
    • Journal Title

      Proceedings of Aggregating and analysing crowdsourced annotations for NLP (AnnoNLP)

      Volume: なし Pages: 6-14

    • DOI

      dx.doi.org/10.18653/v1/D19-5902

    • Peer Reviewed / Open Access
  • [Journal Article] 副詞「ほんとうに」の展開と「じつに」「まことに」―近代語から現代語へ―2019

    • Author(s)
      市村 太郎
    • Journal Title

      国文学研究

      Volume: 188 Pages: 112-98

    • Peer Reviewed
  • [Presentation] ヒトによる多義的形容詞に対する類似性の評価データベース構築-「長い」と「短い」の事例から-2020

    • Author(s)
      西内 沙恵,加藤 祥,浅原 正幸
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] BERTed-BCCWJ: 多層文脈化単語埋め込み情報を付与した『現代日本語書き言葉均衡コーパス』データ2020

    • Author(s)
      浅原 正幸,加藤 祥
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] UD Japanese GSD の再整備と固有表現情報付与2020

    • Author(s)
      松田 寛,若狭 絢,山下 華代,大村 舞,浅原 正幸
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] NWJC-BERT: 多義語に対するヒトと文脈化単語埋め込みの類似性判断の対照分析2020

    • Author(s)
      浅原 正幸,西内 沙恵,加藤 祥
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて2020

    • Author(s)
      河村 宗一郎,久本 空海,真鍋 陽俊,高岡 一馬,内田 佳孝,岡 照晃,浅原 正幸
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] Statistical Approaches to a Correlation between Information Structure and Word Orders of Noun Phrases in Japanese2019

    • Author(s)
      Takuya Miyauchi and Masayuki Asahara
    • Organizer
      16th International Conference of the Pacific Association for Computational Linguistics
    • Int'l Joint Research
  • [Presentation] 『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表2019

    • Author(s)
      呉 佩珣,近藤 森音,森山 奈々美,荻原 亜彩美,加藤 祥,浅原 正幸
    • Organizer
      言語資源活用ワークショップ2019
  • [Presentation] 語義間類似度の双方向評定に基づくプロトタイプ的意味の解明ークラウドソーシングを用いた量的調査による多義的形容詞分析ー2019

    • Author(s)
      西内 沙恵,加藤 祥,浅原 正幸
    • Organizer
      日本認知言語学会第20回全国大会
  • [Presentation] 多義語用例の類似度による語義の分類;「遠い」と「近い」を例に2019

    • Author(s)
      加藤 祥,西内 沙恵,浅原 正幸
    • Organizer
      日本認知言語学会第20回全国大会
  • [Presentation] クラウドソーシング結果の可視化手法と統計処理2019

    • Author(s)
      浅原 正幸
    • Organizer
      日本言語学会第158回大会
  • [Presentation] 『現代日本語書き言葉均衡コーパス』新聞・書籍・雑誌データの助動詞に対する用法情報付与2019

    • Author(s)
      加藤 祥,浅原 正幸,山崎 誠
    • Organizer
      日本語学会2019年度春季大会
  • [Presentation] クラウドソーシングによる語義調査2019

    • Author(s)
      加藤 祥
    • Organizer
      日本言語学会第158回大会
  • [Presentation] クラウドソーシングによる述定・装定の用法分析2019

    • Author(s)
      西内 沙恵
    • Organizer
      日本言語学会第158回大会
  • [Presentation] 意味分類の客観性を探る:『分類語彙表増補改訂版』と『新明解類語辞典』との比較2019

    • Author(s)
      山崎 誠
    • Organizer
      2019年語彙研究会大会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi