• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

Figurative Expression Extraction from Corpora and Analysis

Research Project

Project/Area Number 18K18519
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)

Co-Investigator(Kenkyū-buntansha) 加藤 祥  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
Project Period (FY) 2018-06-29 – 2021-03-31
Keywordsコーパス / 比喩表現
Outline of Annual Research Achievements

指標比喩については『現代日本語書き言葉コーパス』(BCCWJ) コアデータ(Yahoo! 知恵袋、白書、Yahoo! ブログ、書籍、雑誌、新聞)全体に言語学の専門家によるタグ付け作業が完了した。同研究は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、クラウドソーシングに基づく質問紙調査により非専門家の評定値を取得した。具体的には比喩性・新奇性・わかりやすさなどの観点について6件法による調査を行った。さらに、同調査を中村(1977)の用例および IPAL 辞書中の動詞・形容詞の結合についても調査を行った。今後対照分析を進める。
結合比喩については、BCCWJ 新聞データに対する作業が 90% 完了した。同研究の計画は 2019年8月に開催された ICLC 15 でポスター発表を行った。また、BCCWJ の書籍・雑誌データの結合比喩アノテーションについても着手した。
語義の距離を数値化する手法として、自然言語処理に基づく事前学習モデル BERT に基づく文脈化単語埋め込みモデルを導入した。具体的には『国語研日本語ウェブコーパス』250億語規模訓練した NWJC-BERT を構築し、BCCWJ に対する文脈化単語埋め込み情報を BERTed-BCCWJ として整備した。同データの構築により NLP2020 言語資源賞(言語資源協会・言語処理学会)を受賞した。今後、同データを用いた語義の類似度の検証を進める。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

指標比喩データベースについては BCCWJ コアデータ全体に対する作業が完了した。
結合比喩データベースについても順調に作業が進んでおり、2020年度中に新聞記事データの整備が完了することが見込まれる。

Strategy for Future Research Activity

2020年度は結合比喩データベースの整備をさらに進める。
また指標比喩データベースに関する論文を執筆する。

Causes of Carryover

人件費・クラウドソーシング調査費が当初予定より少なく済んだため。

  • Research Products

    (20 results)

All 2020 2019

All Journal Article (7 results) (of which Peer Reviewed: 5 results,  Open Access: 5 results) Presentation (13 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] 日本語比喩情報付与コーパスの作成と新聞における比喩実態調査の試み2020

    • Author(s)
      加藤祥
    • Journal Title

      認知言語学の羽ばたき― 実証性の高い言語研究を目指して ―

      Volume: なし Pages: 144~159

  • [Journal Article] Bayesian Linear Mixed Model による単語親密度推定と位相情報付与2020

    • Author(s)
      浅原 正幸
    • Journal Title

      自然言語処理

      Volume: 27,1 Pages: 133-150

    • Peer Reviewed / Open Access
  • [Journal Article] 自然言語処理-言語資源・意味解析-2020

    • Author(s)
      松林 優一郎,浅原 正幸
    • Journal Title

      人工知能

      Volume: 35.1 Pages: 89-105

  • [Journal Article] 読み時間と統語・意味分類2019

    • Author(s)
      浅原 正幸,加藤 祥
    • Journal Title

      認知科学

      Volume: 26,2 Pages: 219-230

    • DOI

      doi.org/10.11225/jcss.26.219

    • Peer Reviewed / Open Access
  • [Journal Article] 単語埋め込みに基づくサプライザル2019

    • Author(s)
      浅原 正幸
    • Journal Title

      自然言語処理

      Volume: 26,3 Pages: 635-652

    • DOI

      doi.org/10.5715/jnlp.26.635

    • Peer Reviewed / Open Access
  • [Journal Article] 分類語彙表番号を付与した『現代日本語書き言葉均衡コーパス』の書籍・新聞・雑誌データ2019

    • Author(s)
      加藤 祥,浅原 正幸,山崎 誠
    • Journal Title

      日本語の研究

      Volume: 15,2 Pages: 134-144

    • DOI

      doi.org/10.20666/nihongonokenkyu.15.2_134

    • Peer Reviewed / Open Access
  • [Journal Article] Word Familiarity Rate Estimation by Bayesian Linear Mixed Model2019

    • Author(s)
      Masayuki Asahara
    • Journal Title

      Proceedings of Aggregating and analysing crowdsourced annotations for NLP (AnnoNLP)

      Volume: なし Pages: 6-14

    • DOI

      dx.doi.org/10.18653/v1/D19-5902

    • Peer Reviewed / Open Access
  • [Presentation] ヒトによる多義的形容詞に対する類似性の評価データベース構築-「長い」と「短い」の事例から-2020

    • Author(s)
      西内 沙恵,加藤 祥,浅原 正幸
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] BERTed-BCCWJ: 多層文脈化単語埋め込み情報を付与した『現代日本語書き言葉均衡コーパス』データ2020

    • Author(s)
      浅原 正幸,加藤 祥
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] NWJC-BERT: 多義語に対するヒトと文脈化単語埋め込みの類似性判断の対照分析2020

    • Author(s)
      浅原 正幸,西内 沙恵,加藤 祥
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて2020

    • Author(s)
      河村 宗一郎,久本 空海,真鍋 陽俊,高岡 一馬,内田 佳孝,岡 照晃,浅原 正幸
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] Collecting figurative expressions using indicators and semantic tagged Japanese corpus2019

    • Author(s)
      Rei Kikuchi, Sachi Kato and Masayuki Asahara
    • Organizer
      the Fifteenth International Cognitive Linguistics Conference (ICLC-15)
    • Int'l Joint Research
  • [Presentation] Exploring Metaphorical Expressions in Japanese newspaper-article corpora2019

    • Author(s)
      Sachi Kato and Masayuki Asahara
    • Organizer
      the Fifteenth International Cognitive Linguistics Conference (ICLC-15)
    • Int'l Joint Research
  • [Presentation] 『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表2019

    • Author(s)
      呉 佩珣,近藤 森音,森山 奈々美,荻原 亜彩美,加藤 祥,浅原 正幸
    • Organizer
      言語資源活用ワークショップ2019
  • [Presentation] 『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補2019

    • Author(s)
      加藤 祥,森山 奈々美,浅原 正幸
    • Organizer
      言語資源活用ワークショップ2019
  • [Presentation] 語義間類似度の双方向評定に基づくプロトタイプ的意味の解明ークラウドソーシングを用いた量的調査による多義的形容詞分析ー2019

    • Author(s)
      西内 沙恵,加藤 祥,浅原 正幸
    • Organizer
      日本認知言語学会第20回全国大会
  • [Presentation] 多義語用例の類似度による語義の分類;「遠い」と「近い」を例に2019

    • Author(s)
      加藤 祥,西内 沙恵,浅原 正幸
    • Organizer
      日本認知言語学会第20回全国大会
  • [Presentation] クラウドソーシング結果の可視化手法と統計処理2019

    • Author(s)
      浅原 正幸
    • Organizer
      日本言語学会第158回大会
  • [Presentation] 『現代日本語書き言葉均衡コーパス』新聞・書籍・雑誌データの助動詞に対する用法情報付与2019

    • Author(s)
      加藤 祥,浅原 正幸,山崎 誠
    • Organizer
      日本語学会2019年度春季大会
  • [Presentation] クラウドソーシングによる語義調査2019

    • Author(s)
      加藤 祥
    • Organizer
      日本言語学会第158回大会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi