• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実績報告書

日本語歴史コーパスに対する統語・意味情報アノテーション

研究課題

研究課題/領域番号 17H00917
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)

研究分担者 服部 隆  上智大学, 文学部, 教授 (10289598)
古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)
市村 太郎  常葉大学, 教育学部, 講師 (10701352)
山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
宮内 佐夜香  中京大学, 文学部, 准教授 (30508502)
池上 尚  埼玉大学, 教育学部, 准教授 (50739125)
岡 照晃  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
研究期間 (年度) 2017-04-01 – 2022-03-31
キーワードコーパス / アノテーション
研究実績の概要

平成31年度は主に『分類語彙表』の関連する言語資源整備を進めた。
『分類語彙表』に対する位相情報アノテーション(NLP2019 言語資源賞受賞)を整備し、公開した。『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表を構築し、令和2年度中に公開予定である。
『日本語歴史コーパス』に対する分類語彙表番号アノテーションにおいては、『宇治拾遺物語』『国定読本(第1期)』に対する作業が完了し、『今昔物語集』『国定読本(第2期)』に対する作業に着手した。並行して行った『現代日本語書き言葉コーパス』に対する分類語彙表番号アノテーションおよび助動詞の用法アノテーションについて公開を行った。
語義推定の自動化を進めるために自然言語処理の事前学習フレームワーク BERT の日本語モデル NWJC-BERT を構築し、文脈化単語埋め込み情報出力環境を整備した。具体的には『国語研日本語ウェブコーパス』 250億語に基づき訓練を行い、『現代日本語書き言葉コーパス』に対する文脈化単語埋め込み情報付与作業を実施した。同データ BERTed-BCCWJ は NLP2020 言語資源賞を受賞した。『日本語歴史コーパス』に対しても同モデルで文脈化単語埋め込み情報を付与(BERTed-CHJ)し、その概要について日本語学会2020年度春季大会で発表予定である。
統語関連においては、UD Japanese-GSD の再整備を進めた。2020年5月のリリースに向けて作業を継続している。また近代語に対する長単位・係り受け情報アノテーションについて検討を進めた。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

分類語彙表番号アノテーションについては着実にデータ量を増やしてきた。
統語情報については近代語を中心に検討を続けたい。

今後の研究の推進方策

引き続き分類語彙表番号アノテーションを続けるとともに、BERT に基づく語義アノテーション支援手法について検討を行う。
統語情報については『国定読本』に対する長単位情報付与を検討する。

  • 研究成果

    (24件)

すべて 2020 2019

すべて 雑誌論文 (10件) (うち査読あり 8件、 オープンアクセス 8件) 学会発表 (14件) (うち国際学会 1件)

  • [雑誌論文] Bayesian Linear Mixed Model による単語親密度推定と位相情報付与2020

    • 著者名/発表者名
      浅原 正幸
    • 雑誌名

      自然言語処理

      巻: 27,1 ページ: 133-150

    • 査読あり / オープンアクセス
  • [雑誌論文] 自然言語処理-言語資源・意味解析-2020

    • 著者名/発表者名
      松林 優一郎,浅原 正幸
    • 雑誌名

      人工知能

      巻: 35.1 ページ: 89-105

  • [雑誌論文] 尾崎紅葉『多情多恨 前編』における文章展開―節(clause)を用いた文体分析の試み(七)―2020

    • 著者名/発表者名
      服部 隆
    • 雑誌名

      上智大学国文学科紀要

      巻: 37 ページ: 266-249

    • オープンアクセス
  • [雑誌論文] 読み時間と統語・意味分類2019

    • 著者名/発表者名
      浅原 正幸,加藤 祥
    • 雑誌名

      認知科学

      巻: 26,2 ページ: 219-230

    • DOI

      doi.org/10.11225/jcss.26.219

    • 査読あり / オープンアクセス
  • [雑誌論文] 日本語の読み時間と節境界情報ー主辞後置言語における wrap-up effect の検証2019

    • 著者名/発表者名
      浅原 正幸
    • 雑誌名

      自然言語処理

      巻: 26,2 ページ: 301-328

    • DOI

      doi.org/10.5715/jnlp.26.301

    • 査読あり / オープンアクセス
  • [雑誌論文] 概念辞書の類義語と分散表現を利用した教師なし all-words WSD2019

    • 著者名/発表者名
      鈴木 類,古宮 嘉那子,浅原 正幸,佐々木 稔,新納 浩幸
    • 雑誌名

      自然言語処理

      巻: 26,2 ページ: 361-380

    • DOI

      doi.org/10.5715/jnlp.26.361

    • 査読あり / オープンアクセス
  • [雑誌論文] 単語埋め込みに基づくサプライザル2019

    • 著者名/発表者名
      浅原 正幸
    • 雑誌名

      自然言語処理

      巻: 26,3 ページ: 635-652

    • DOI

      doi.org/10.5715/jnlp.26.635

    • 査読あり / オープンアクセス
  • [雑誌論文] 分類語彙表番号を付与した『現代日本語書き言葉均衡コーパス』の書籍・新聞・雑誌データ2019

    • 著者名/発表者名
      加藤 祥,浅原 正幸,山崎 誠
    • 雑誌名

      日本語の研究

      巻: 15,2 ページ: 134-144

    • DOI

      doi.org/10.20666/nihongonokenkyu.15.2_134

    • 査読あり / オープンアクセス
  • [雑誌論文] Word Familiarity Rate Estimation by Bayesian Linear Mixed Model2019

    • 著者名/発表者名
      Masayuki Asahara
    • 雑誌名

      Proceedings of Aggregating and analysing crowdsourced annotations for NLP (AnnoNLP)

      巻: なし ページ: 6-14

    • DOI

      dx.doi.org/10.18653/v1/D19-5902

    • 査読あり / オープンアクセス
  • [雑誌論文] 副詞「ほんとうに」の展開と「じつに」「まことに」―近代語から現代語へ―2019

    • 著者名/発表者名
      市村 太郎
    • 雑誌名

      国文学研究

      巻: 188 ページ: 112-98

    • 査読あり
  • [学会発表] ヒトによる多義的形容詞に対する類似性の評価データベース構築-「長い」と「短い」の事例から-2020

    • 著者名/発表者名
      西内 沙恵,加藤 祥,浅原 正幸
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] BERTed-BCCWJ: 多層文脈化単語埋め込み情報を付与した『現代日本語書き言葉均衡コーパス』データ2020

    • 著者名/発表者名
      浅原 正幸,加藤 祥
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] UD Japanese GSD の再整備と固有表現情報付与2020

    • 著者名/発表者名
      松田 寛,若狭 絢,山下 華代,大村 舞,浅原 正幸
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] NWJC-BERT: 多義語に対するヒトと文脈化単語埋め込みの類似性判断の対照分析2020

    • 著者名/発表者名
      浅原 正幸,西内 沙恵,加藤 祥
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて2020

    • 著者名/発表者名
      河村 宗一郎,久本 空海,真鍋 陽俊,高岡 一馬,内田 佳孝,岡 照晃,浅原 正幸
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] Statistical Approaches to a Correlation between Information Structure and Word Orders of Noun Phrases in Japanese2019

    • 著者名/発表者名
      Takuya Miyauchi and Masayuki Asahara
    • 学会等名
      16th International Conference of the Pacific Association for Computational Linguistics
    • 国際学会
  • [学会発表] 『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表2019

    • 著者名/発表者名
      呉 佩珣,近藤 森音,森山 奈々美,荻原 亜彩美,加藤 祥,浅原 正幸
    • 学会等名
      言語資源活用ワークショップ2019
  • [学会発表] 語義間類似度の双方向評定に基づくプロトタイプ的意味の解明ークラウドソーシングを用いた量的調査による多義的形容詞分析ー2019

    • 著者名/発表者名
      西内 沙恵,加藤 祥,浅原 正幸
    • 学会等名
      日本認知言語学会第20回全国大会
  • [学会発表] 多義語用例の類似度による語義の分類;「遠い」と「近い」を例に2019

    • 著者名/発表者名
      加藤 祥,西内 沙恵,浅原 正幸
    • 学会等名
      日本認知言語学会第20回全国大会
  • [学会発表] クラウドソーシング結果の可視化手法と統計処理2019

    • 著者名/発表者名
      浅原 正幸
    • 学会等名
      日本言語学会第158回大会
  • [学会発表] 『現代日本語書き言葉均衡コーパス』新聞・書籍・雑誌データの助動詞に対する用法情報付与2019

    • 著者名/発表者名
      加藤 祥,浅原 正幸,山崎 誠
    • 学会等名
      日本語学会2019年度春季大会
  • [学会発表] クラウドソーシングによる語義調査2019

    • 著者名/発表者名
      加藤 祥
    • 学会等名
      日本言語学会第158回大会
  • [学会発表] クラウドソーシングによる述定・装定の用法分析2019

    • 著者名/発表者名
      西内 沙恵
    • 学会等名
      日本言語学会第158回大会
  • [学会発表] 意味分類の客観性を探る:『分類語彙表増補改訂版』と『新明解類語辞典』との比較2019

    • 著者名/発表者名
      山崎 誠
    • 学会等名
      2019年語彙研究会大会

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi