• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実施状況報告書

文脈化単語埋め込みによる1億語規模の比喩表現実態調査

研究課題

研究課題/領域番号 22K18483
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)

研究分担者 加藤 祥  目白大学, 外国語学部, 専任講師 (40623004)
研究期間 (年度) 2022-06-30 – 2025-03-31
キーワードコーパス / 比喩表現
研究実績の概要

『現代日本語書き言葉均衡コーパス』(BCCWJ)は、日本語の自然言語処理において広く用いられている1億語規模のテキストデータセットの1つである。NWJC-BERTは250億語規模の『国語研日本語ウェブコーパス』から訓練した深層学習 BERT のモデルである。BCCWJに対して、NWJC-BERTを用いて文脈化単語埋め込みを付与する作業が進めた。文脈化単語埋め込みとは、単語の意味表現をベクトルとして表現する手法の1つで、その単語が現れる文脈によって意味が変化することを考慮する。このベクトル表現に基づく語義の評価の定量化を進めた。語義評価の定量化に基づき、語義の転換である比喩表現の認識手法を検討中である。
並行して日本語の比喩表現のタグ付け基準について検討した。分類語彙表に基づく語義を手がかりとし、MIP (metaphor identification procedure) に基づきタグ付けする方針を策定した。しかしながら、作業者の手配が進まず、タグ付けを進めることができなかった。
第44回NINJALチュートリアル(2022年8月6日)にて、韓国日本語学会・韓国日語教育学会と共催で、「『分類語彙表』関連データベース」というタイトルで、単語埋め込みに基づく語義の近さの可視化についてチュートリアルを実施した。また、第17回NINJALフォーラム「語彙資源の構築と活用」(2023年2月18日:オンライン開催)にて「分類語彙表と比喩情報」というタイトルで講演を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

文脈化単語埋め込みの付与が進んでいる一方、作業者の手配が進まず、比喩表現の人手による検討が進められていないため。

今後の研究の推進方策

2023年4月採用でデータ整理作業者を雇用した。今後2年間でデータ整理作業を進める。

次年度使用額が生じた理由

作業者の手配が進まず、実質的なタグ付け作業を進めることができなかったため。
2023年4月より研究員1名を雇用し、タグ付け作業を進める予定である。

  • 研究成果

    (2件)

すべて 2023 2022

すべて 学会発表 (2件) (うち招待講演 1件)

  • [学会発表] 分類語彙表と比喩情報2023

    • 著者名/発表者名
      加藤祥
    • 学会等名
      第17回 NINJALフォーラム 「語彙資源の構築と活用」
    • 招待講演
  • [学会発表] 『分類語彙表』関連データベース2022

    • 著者名/発表者名
      浅原正幸
    • 学会等名
      第44回NINJALチュートリアル

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi