• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実施状況報告書

コーパスからの比喩表現収集とその分析

研究課題

研究課題/領域番号 18K18519
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)

研究分担者 加藤 祥  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
研究期間 (年度) 2018-06-29 – 2021-03-31
キーワードコーパス / 比喩表現
研究実績の概要

指標比喩については『現代日本語書き言葉コーパス』(BCCWJ) コアデータ(Yahoo! 知恵袋、白書、Yahoo! ブログ、書籍、雑誌、新聞)全体に言語学の専門家によるタグ付け作業が完了した。同研究は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、クラウドソーシングに基づく質問紙調査により非専門家の評定値を取得した。具体的には比喩性・新奇性・わかりやすさなどの観点について6件法による調査を行った。さらに、同調査を中村(1977)の用例および IPAL 辞書中の動詞・形容詞の結合についても調査を行った。今後対照分析を進める。
結合比喩については、BCCWJ 新聞データに対する作業が 90% 完了した。同研究の計画は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、BCCWJ の書籍・雑誌データの結合比喩アノテーションについても着手した。
語義の距離を数値化する手法として、自然言語処理に基づく事前学習モデル BERT に基づく文脈化単語埋め込みモデルを導入した。具体的には『国語研日本語ウェブコーパス』250億語規模訓練した NWJC-BERT を構築し、BCCWJ に対する文脈化単語埋め込み情報を BERTed-BCCWJ として整備した。同データの構築により NLP2020 言語資源賞(言語資源協会・言語処理学会)を受賞した。今後、同データを用いた語義の類似度の検証を進める。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

指標比喩データベースについては BCCWJ コアデータ全体に対する作業が完了した。
結合比喩データベースについても順調に作業が進んでおり、2020年度中に新聞記事データの整備が完了することが見込まれる。

今後の研究の推進方策

2020年度は結合比喩データベースの整備をさらに進める。
また指標比喩データベースに関する論文を執筆する。

次年度使用額が生じた理由

人件費・クラウドソーシング調査費が当初予定より少なく済んだため。

  • 研究成果

    (20件)

すべて 2020 2019

すべて 雑誌論文 (7件) (うち査読あり 5件、 オープンアクセス 5件) 学会発表 (13件) (うち国際学会 2件)

  • [雑誌論文] 日本語比喩情報付与コーパスの作成と新聞における比喩実態調査の試み2020

    • 著者名/発表者名
      加藤祥
    • 雑誌名

      認知言語学の羽ばたき― 実証性の高い言語研究を目指して ―

      巻: なし ページ: 144~159

  • [雑誌論文] Bayesian Linear Mixed Model による単語親密度推定と位相情報付与2020

    • 著者名/発表者名
      浅原 正幸
    • 雑誌名

      自然言語処理

      巻: 27,1 ページ: 133-150

    • 査読あり / オープンアクセス
  • [雑誌論文] 自然言語処理-言語資源・意味解析-2020

    • 著者名/発表者名
      松林 優一郎,浅原 正幸
    • 雑誌名

      人工知能

      巻: 35.1 ページ: 89-105

  • [雑誌論文] 読み時間と統語・意味分類2019

    • 著者名/発表者名
      浅原 正幸,加藤 祥
    • 雑誌名

      認知科学

      巻: 26,2 ページ: 219-230

    • DOI

      doi.org/10.11225/jcss.26.219

    • 査読あり / オープンアクセス
  • [雑誌論文] 単語埋め込みに基づくサプライザル2019

    • 著者名/発表者名
      浅原 正幸
    • 雑誌名

      自然言語処理

      巻: 26,3 ページ: 635-652

    • DOI

      doi.org/10.5715/jnlp.26.635

    • 査読あり / オープンアクセス
  • [雑誌論文] 分類語彙表番号を付与した『現代日本語書き言葉均衡コーパス』の書籍・新聞・雑誌データ2019

    • 著者名/発表者名
      加藤 祥,浅原 正幸,山崎 誠
    • 雑誌名

      日本語の研究

      巻: 15,2 ページ: 134-144

    • DOI

      doi.org/10.20666/nihongonokenkyu.15.2_134

    • 査読あり / オープンアクセス
  • [雑誌論文] Word Familiarity Rate Estimation by Bayesian Linear Mixed Model2019

    • 著者名/発表者名
      Masayuki Asahara
    • 雑誌名

      Proceedings of Aggregating and analysing crowdsourced annotations for NLP (AnnoNLP)

      巻: なし ページ: 6-14

    • DOI

      dx.doi.org/10.18653/v1/D19-5902

    • 査読あり / オープンアクセス
  • [学会発表] ヒトによる多義的形容詞に対する類似性の評価データベース構築-「長い」と「短い」の事例から-2020

    • 著者名/発表者名
      西内 沙恵,加藤 祥,浅原 正幸
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] BERTed-BCCWJ: 多層文脈化単語埋め込み情報を付与した『現代日本語書き言葉均衡コーパス』データ2020

    • 著者名/発表者名
      浅原 正幸,加藤 祥
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] NWJC-BERT: 多義語に対するヒトと文脈化単語埋め込みの類似性判断の対照分析2020

    • 著者名/発表者名
      浅原 正幸,西内 沙恵,加藤 祥
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて2020

    • 著者名/発表者名
      河村 宗一郎,久本 空海,真鍋 陽俊,高岡 一馬,内田 佳孝,岡 照晃,浅原 正幸
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] Collecting figurative expressions using indicators and semantic tagged Japanese corpus2019

    • 著者名/発表者名
      Rei Kikuchi, Sachi Kato and Masayuki Asahara
    • 学会等名
      the Fifteenth International Cognitive Linguistics Conference (ICLC-15)
    • 国際学会
  • [学会発表] Exploring Metaphorical Expressions in Japanese newspaper-article corpora2019

    • 著者名/発表者名
      Sachi Kato and Masayuki Asahara
    • 学会等名
      the Fifteenth International Cognitive Linguistics Conference (ICLC-15)
    • 国際学会
  • [学会発表] 『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表2019

    • 著者名/発表者名
      呉 佩珣,近藤 森音,森山 奈々美,荻原 亜彩美,加藤 祥,浅原 正幸
    • 学会等名
      言語資源活用ワークショップ2019
  • [学会発表] 『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補2019

    • 著者名/発表者名
      加藤 祥,森山 奈々美,浅原 正幸
    • 学会等名
      言語資源活用ワークショップ2019
  • [学会発表] 語義間類似度の双方向評定に基づくプロトタイプ的意味の解明ークラウドソーシングを用いた量的調査による多義的形容詞分析ー2019

    • 著者名/発表者名
      西内 沙恵,加藤 祥,浅原 正幸
    • 学会等名
      日本認知言語学会第20回全国大会
  • [学会発表] 多義語用例の類似度による語義の分類;「遠い」と「近い」を例に2019

    • 著者名/発表者名
      加藤 祥,西内 沙恵,浅原 正幸
    • 学会等名
      日本認知言語学会第20回全国大会
  • [学会発表] クラウドソーシング結果の可視化手法と統計処理2019

    • 著者名/発表者名
      浅原 正幸
    • 学会等名
      日本言語学会第158回大会
  • [学会発表] 『現代日本語書き言葉均衡コーパス』新聞・書籍・雑誌データの助動詞に対する用法情報付与2019

    • 著者名/発表者名
      加藤 祥,浅原 正幸,山崎 誠
    • 学会等名
      日本語学会2019年度春季大会
  • [学会発表] クラウドソーシングによる語義調査2019

    • 著者名/発表者名
      加藤 祥
    • 学会等名
      日本言語学会第158回大会

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi