研究課題/領域番号 |
22K18483
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
研究分担者 |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
研究期間 (年度) |
2022-06-30 – 2025-03-31
|
キーワード | コーパス / 比喩表現 |
研究実績の概要 |
『現代日本語書き言葉均衡コーパス』(BCCWJ)は、日本語の自然言語処理において広く用いられている1億語規模のテキストデータセットの1つである。NWJC-BERTは250億語規模の『国語研日本語ウェブコーパス』から訓練した深層学習 BERT のモデルである。BCCWJに対して、NWJC-BERTを用いて文脈化単語埋め込みを付与する作業が進めた。文脈化単語埋め込みとは、単語の意味表現をベクトルとして表現する手法の1つで、その単語が現れる文脈によって意味が変化することを考慮する。このベクトル表現に基づく語義の評価の定量化を進めた。語義評価の定量化に基づき、語義の転換である比喩表現の認識手法を検討中である。 並行して日本語の比喩表現のタグ付け基準について検討した。分類語彙表に基づく語義を手がかりとし、MIP (metaphor identification procedure) に基づきタグ付けする方針を策定した。しかしながら、作業者の手配が進まず、タグ付けを進めることができなかった。 第44回NINJALチュートリアル(2022年8月6日)にて、韓国日本語学会・韓国日語教育学会と共催で、「『分類語彙表』関連データベース」というタイトルで、単語埋め込みに基づく語義の近さの可視化についてチュートリアルを実施した。また、第17回NINJALフォーラム「語彙資源の構築と活用」(2023年2月18日:オンライン開催)にて「分類語彙表と比喩情報」というタイトルで講演を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
文脈化単語埋め込みの付与が進んでいる一方、作業者の手配が進まず、比喩表現の人手による検討が進められていないため。
|
今後の研究の推進方策 |
2023年4月採用でデータ整理作業者を雇用した。今後2年間でデータ整理作業を進める。
|
次年度使用額が生じた理由 |
作業者の手配が進まず、実質的なタグ付け作業を進めることができなかったため。 2023年4月より研究員1名を雇用し、タグ付け作業を進める予定である。
|