本研究の目的は、多様なコーパスを分析して、オノマトペの出現傾向および語義の傾向、新出の語義・用法、オノマトペの語義と文脈情報の関係などについての基礎研究を完成させ、『文脈情報付き現代日本語オノマトペデータベース』を構築することである。 2022年度はオノマトペの語義と文脈情報の分析を行うことと、データベースの規模拡大のため、オノマトペの語義を決めるコロケーションを抽出するためのアルゴリズムを確立することを計画していた。当該年度は以下の研究成果を得た。 1.新たな言語資源として妊娠・出産・育児に関するオンラインコミュニティにおける検索履歴を対象として、オノマトペの出現傾向を分析した。特筆すべき傾向として、ネガティブな感情や心身の不調を表すオノマトペが頻出することが明らかになった。このことから、母親のWeb上での行動から産後うつなどの精神的な不調を早期に検出する際に、オノマトペが手がかかりとして有効であることが示唆された。 2.2021年度に提案したルールベースの語義分類手法の改良を行った。日本語オノマトペの多くは複数の語義を持ち、それらの語義は周辺の文脈によって判別される。オノマトペ語義分類の従来研究では、事前学習済みのBERTモデルから得られるオノマトペのベクトル表現を用いた語義分類の自動化を提案しているが、訓練データを作成するためのアノテーションコストが高く、全てのオノマトペに対して訓練データを豊富に用意することは難しいという問題があった。そこで、低いアノテーションコストで語義分類を自動化するルールベースの語義分類手法に、より特徴的で多くの格解析情報にマッチした語義に分類するような「語義スコア」に導入したアルゴリズムを提案した。 これらの成果は学会発表ならびに査読付き論文で公表済みである。
|