2022 Fiscal Year Research-status Report
文脈化単語埋め込みによる1億語規模の比喩表現実態調査
Project/Area Number |
22K18483
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Keywords | コーパス / 比喩表現 |
Outline of Annual Research Achievements |
『現代日本語書き言葉均衡コーパス』(BCCWJ)は、日本語の自然言語処理において広く用いられている1億語規模のテキストデータセットの1つである。NWJC-BERTは250億語規模の『国語研日本語ウェブコーパス』から訓練した深層学習 BERT のモデルである。BCCWJに対して、NWJC-BERTを用いて文脈化単語埋め込みを付与する作業が進めた。文脈化単語埋め込みとは、単語の意味表現をベクトルとして表現する手法の1つで、その単語が現れる文脈によって意味が変化することを考慮する。このベクトル表現に基づく語義の評価の定量化を進めた。語義評価の定量化に基づき、語義の転換である比喩表現の認識手法を検討中である。 並行して日本語の比喩表現のタグ付け基準について検討した。分類語彙表に基づく語義を手がかりとし、MIP (metaphor identification procedure) に基づきタグ付けする方針を策定した。しかしながら、作業者の手配が進まず、タグ付けを進めることができなかった。 第44回NINJALチュートリアル(2022年8月6日)にて、韓国日本語学会・韓国日語教育学会と共催で、「『分類語彙表』関連データベース」というタイトルで、単語埋め込みに基づく語義の近さの可視化についてチュートリアルを実施した。また、第17回NINJALフォーラム「語彙資源の構築と活用」(2023年2月18日:オンライン開催)にて「分類語彙表と比喩情報」というタイトルで講演を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
文脈化単語埋め込みの付与が進んでいる一方、作業者の手配が進まず、比喩表現の人手による検討が進められていないため。
|
Strategy for Future Research Activity |
2023年4月採用でデータ整理作業者を雇用した。今後2年間でデータ整理作業を進める。
|
Causes of Carryover |
作業者の手配が進まず、実質的なタグ付け作業を進めることができなかったため。 2023年4月より研究員1名を雇用し、タグ付け作業を進める予定である。
|
Research Products
(2 results)