文脈化単語埋め込みによる1億語規模の比喩表現実態調査
Project/Area Number |
22K18483
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 2:Literature, linguistics, and related fields
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2024: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2023: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | コーパス / 比喩 / 比喩表現 |
Outline of Research at the Start |
本研究では、文学・言語学研究に資する比喩表現データベースを1億語規模の均衡コーパスに基づいて整備する。深層学習による言語モデル BERT により構成される文脈化単語埋め込みという技術を用いて、単語・文をベクトル空間上に写像する。その空間上に、既存の比喩表現データを写像することで、その近傍に比喩表現クラスタを発見的に探索する。本手法により、指標比喩(いわゆる直喩)だけでなく、結合に意味の転換がみられる結合比喩(いわゆる隠喩)についても抽出できる。収集された比喩表現について、「一般の方がどのように比喩を捉えているか」についてアンケート調査を行い、比喩表現の生産過程と受容過程の実態を明らかにする。
|
Outline of Annual Research Achievements |
2023年度は、自動解析のための訓練データの構築のために『現代日本語書き言葉均衡コーパス』に対する結合比喩・文脈比喩のアノテーション作業を進め、30万語規模のアノテーションデータが完成した。このデータに基づく比喩情報の自動解析手法として、系列ラベリング技術に関する調査を行った。また、そのための基礎資料として、1億語規模の分類語彙表番号自動付与データの整備を進めた。 『比喩表現の理論と分類』データの電子化に関する論文1件(国立国語研究所論集)と、『現代日本語書き言葉均衡コーパス』に対する指標比喩アノテーションデータの分析に関する論文1件(日本認知科学会論文誌『認知科学』)を発表した。 2024年3月18日に京都大学で開催された日本語用論学会メタファー研究会「メタファーとコーパス」において、「日本語比喩表現コーパス(BCCWJ-Metaphor)の構築と一般日本語話者の有する比喩性の印象」というタイトルで、比喩コーパス構築の現況について報告した。 また、比喩表現の自動解析技術として、分布意味論に関する研究動向を調査し、これらの内容は、1件の講演会(東京外国語大学国際日本学研究院 NINJAL ユニット講演会)と1件の入門セミナー(立命館大学)にて発表した。 言語処理学会第30回年次大会(NLP2024)にて「日本語言語資源の構築と利用性の向上」を共同企画した。その中でレトリックに関する発表セッションを企画するとともに、2件の比喩表現言語資源に関する発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
指標比喩に関する発表について積極的に発表することができた。 さらに結合比喩、文脈比喩について自動処理用のデータを完成させることができた。
|
Strategy for Future Research Activity |
2024年度は深層学習を用いた比喩情報自動付与モデルの構築を進める。当初の目標通り1億語規模の比喩情報付与データの構築を進める。
|
Report
(2 results)
Research Products
(5 results)