研究課題/領域番号 |
22K18483
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分2:文学、言語学およびその関連分野
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
研究分担者 |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
研究期間 (年度) |
2022-06-30 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2024年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2023年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | コーパス / 比喩表現 / 比喩 |
研究開始時の研究の概要 |
本研究では、文学・言語学研究に資する比喩表現データベースを1億語規模の均衡コーパスに基づいて整備する。深層学習による言語モデル BERT により構成される文脈化単語埋め込みという技術を用いて、単語・文をベクトル空間上に写像する。その空間上に、既存の比喩表現データを写像することで、その近傍に比喩表現クラスタを発見的に探索する。本手法により、指標比喩(いわゆる直喩)だけでなく、結合に意味の転換がみられる結合比喩(いわゆる隠喩)についても抽出できる。収集された比喩表現について、「一般の方がどのように比喩を捉えているか」についてアンケート調査を行い、比喩表現の生産過程と受容過程の実態を明らかにする。
|
研究実績の概要 |
『現代日本語書き言葉均衡コーパス』(BCCWJ)は、日本語の自然言語処理において広く用いられている1億語規模のテキストデータセットの1つである。NWJC-BERTは250億語規模の『国語研日本語ウェブコーパス』から訓練した深層学習 BERT のモデルである。BCCWJに対して、NWJC-BERTを用いて文脈化単語埋め込みを付与する作業が進めた。文脈化単語埋め込みとは、単語の意味表現をベクトルとして表現する手法の1つで、その単語が現れる文脈によって意味が変化することを考慮する。このベクトル表現に基づく語義の評価の定量化を進めた。語義評価の定量化に基づき、語義の転換である比喩表現の認識手法を検討中である。 並行して日本語の比喩表現のタグ付け基準について検討した。分類語彙表に基づく語義を手がかりとし、MIP (metaphor identification procedure) に基づきタグ付けする方針を策定した。しかしながら、作業者の手配が進まず、タグ付けを進めることができなかった。 第44回NINJALチュートリアル(2022年8月6日)にて、韓国日本語学会・韓国日語教育学会と共催で、「『分類語彙表』関連データベース」というタイトルで、単語埋め込みに基づく語義の近さの可視化についてチュートリアルを実施した。また、第17回NINJALフォーラム「語彙資源の構築と活用」(2023年2月18日:オンライン開催)にて「分類語彙表と比喩情報」というタイトルで講演を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
文脈化単語埋め込みの付与が進んでいる一方、作業者の手配が進まず、比喩表現の人手による検討が進められていないため。
|
今後の研究の推進方策 |
2023年4月採用でデータ整理作業者を雇用した。今後2年間でデータ整理作業を進める。
|