語義定義文拡張と語義階層構造を用いた教師あり語義曖昧性解消

研究課題

研究課題/領域番号	22K12161
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	茨城大学
研究代表者	佐々木稔茨城大学, 理工学研究科(工学野), 准教授 (60344834)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	3,120千円 (直接経費: 2,400千円、間接経費: 720千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	自然言語処理 / 語義曖昧性解消 / 機械学習 / 知識表現
研究開始時の研究の概要	多義語に対して最も適切な語義を割り当てる語義曖昧性解消システムにおいて、辞書の語義定義文やシソーラスの情報を組み合わせた教師あり学習モデルが注目されている。しかし、既存手法では低頻度語義の識別精度が低いことや日本語辞書の短い語義定義文が課題であった。そこで、語義定義文に補足する文を追加することで語義の特徴を捉えられるのではないか、訓練データの用例文不足と不均衡な状況下でも語義階層の利用で精度改善可能ではないかとして、国語辞典とシソーラスの情報を統合した語義曖昧性解消システムの開発を行う。これにより、語義の階層性情報の活用と語義定義文の拡張による日本語語義曖昧性解消システムの精度向上を実証する。
研究実績の概要	効果的な語義曖昧性解消システムの開発に向け、国語辞典で記述される語義の定義文やシソーラスを用いて、ベクトルで表現された語義の識別に有効な特徴の抽出を行う。今年度はそのために必要な２件の研究、語義間関係判定、語義曖昧性解消システムの性能改善について実施した。日本語辞書における語義の階層関係や類義関係を判定することができるモデルの開発を行った。国語辞典の定義文と語義間関係を記述したシソーラスを利用して、語義間の類義語関係判定モデルを構築し、多くの単語に対して効果的に語義や類義関係を判定することを示した。語義曖昧性解消システムの性能を改善するためには、より多くの語義タグ付き用例文を用意して語義識別モデルを構築する必要がある。そこで、語義タグ付き用例文から抽出したキーワードをもとに新たな用例文の生成を行うことで、語義タグ付きコーパスのデータ数を自動的に増やす手法を提案し、生成した用例文が有用かどうか分析を行なった。生成した用例文の有用性を検証した結果、学習に利用するデータセットを洗練し、提案手法における新たな損失関数の採用と、正解テキストを直接参照しない評価指標を用いることにより、既存モデルよりも高い評価スコアを持つモデルを構築できることを示した。語義曖昧性解消モデルについても英語辞書であるWordNet3.0に記述されている語義の用例文を効果的に使用するための手法を改良した。一部の評価セットでF値が向上することを示した。この結果より、語義曖昧性解消において語義の用例文を使用することはそれほど効果的ではないことが明らかになった。そのため、語義の例文の使用方法を工夫すれば，語義識別精度を改善できることを示唆している。また、提案手法はzero-shot-wordの精度が大幅に向上したため、あまり出現しない少数語義の分類に対して有効であることを示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由語義曖昧性解消において、教師あり学習モデルにシソーラスの情報と国語辞典の情報を両方組み込んだ効果的な語義曖昧性解消システムの開発は概ね順調に進展している。このシステムを実現するために、類義語関係判定、辞書の意味記述の分析、語義曖昧性解消システムの改善という３つのプロジェクトを実施し、多くの知見を得ることができたことが要因である。以下に３つのプロジェクトで得られた具体的な知見を説明する。日本語辞書における語義の階層関係や類義関係を判定することができるモデルの開発を行なった。。国語辞典の定義文と語義間関係を記述したシソーラスを利用して、語義間の類義語関係判定モデルを構築し、多くの単語に対して効果的に語義や類義関係を判定することを示した。語義タグ付き用例文から抽出したキーワードをもとに新たな用例文の生成を行うことで、語義識別モデルの構築に必要な訓練データ数を自動的に増やす手法を開発し、学習に利用するデータセットを洗練し、提案手法における新たな損失関数の採用と、正解テキストを直接参照しない評価指標を用いることにより、既存モデルよりも高い評価スコアを持つモデルを構築できることを示した。語義曖昧性解消モデルについても英語辞書であるWordNet3.0に記述されている語義の用例文を効果的に使用するための手法を開発した。実験の結果、一部の評価セットでF値が向上することを示した。この結果より、語義曖昧性解消において語義の用例文を使用することはそれほど効果的ではないことが明らかになった。提案手法はzero-shot-wordの精度が大幅に向上したため、あまり出現しない少数語義の分類に対して有効であることを示した。
今後の研究の推進方策	語義曖昧性解消において、教師あり学習モデルにシソーラスの情報と国語辞典の情報を両方組み込んだ効果的な語義曖昧性解消システムの開発は概ね順調に進展している。今後も引き続き、語義間関係判定、語義定義文の分析、語義曖昧性解消システムの改善という３つのプロジェクトを進めて、特徴抽出や語義識別などといった語義曖昧性解消に有効な手法を開発し、更に高い性能を持つ語義曖昧性解消システムの開発を推進する予定である。具体的には、辞書において効果的に記述を拡張した語義定義文の有効性を示すことが挙げられる。既存研究では語義定義文を記述内容のまま使用しており、短い語義定義文に対して類義語の語義定義文などを追加するなどの手法が有効かどうかを検証する。また、訓練データにおいて出現頻度の少ない語義の識別精度を改善するために、国語辞典における語義の階層情報を利用することで、語義曖昧性解消を高い精度で識別できるかを検証する。構築した語義曖昧性解消システムに対し、国語辞典における語義の階層情報が有効であることを検証する予定である。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(8件)

すべて 2024 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件) (うち国際学会 3件)

[雑誌論文] Sentence-BERTと語義定義文を利用した語義間の類義判定手法2024
- 著者名/発表者名
  石井佑樹、佐々木稔
- 雑誌名
  
  自然言語処理
  
  巻: 31
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] Sentence-BERTと語義定義文を利用した語義間の類義判定手法2024
- 著者名/発表者名
  石井佑樹、佐々木稔
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] BERTScoreとキーワード採用率を用いた語義タグ付き用例文生成手法2024
- 著者名/発表者名
  長友日雅、佐々木稔
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 接尾辞を持つ単語の語義定義文とその分散表現の分析2023
- 著者名/発表者名
  須山晃平, 佐々木稔
- 学会等名
  言語処理学会第29回年次大会(NLP2023)
- 関連する報告書
  2022 実施状況報告書
[学会発表] BERTの学習済みモデルを用いた語義定義文の類義判定に有効な日本語辞書の変更方法2023
- 著者名/発表者名
  石井佑樹, 佐々木稔
- 学会等名
  言語処理学会第29回年次大会(NLP2023)
- 関連する報告書
  2022 実施状況報告書
[学会発表] Effectiveness analysis of word sense disambiguation using example of word senses from WordNet2022
- 著者名/発表者名
  Hiroshi Sekiya, Minoru Sasaki
- 学会等名
  Proceedings of the 36st Pacific Asia Conference on Language, Information and Computation (PACLIC36)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Text classification using a graph based on relationships between documents2022
- 著者名/発表者名
  Hiromu Nakajima, Minoru Sasaki
- 学会等名
  Proceedings of the 36st Pacific Asia Conference on Language, Information and Computation (PACLIC36)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Effective use of Japanese dictionary definition sentences in learning hierarchical embedding of dictionaries2022
- 著者名/発表者名
  Yuki Ishii, Minoru Sasaki
- 学会等名
  Proceedings of the 36st Pacific Asia Conference on Language, Information and Computation (PACLIC36)
- 関連する報告書
  2022 実施状況報告書
- 国際学会

語義定義文拡張と語義階層構造を用いた教師あり語義曖昧性解消

研究代表者

佐々木 稔 茨城大学, 理工学研究科(工学野), 准教授 (60344834)

3,120千円 (直接経費: 2,400千円、間接経費: 720千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Sentence-BERTと語義定義文を利用した語義間の類義判定手法2024

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Sentence-BERTと語義定義文を利用した語義間の類義判定手法2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] BERTScoreとキーワード採用率を用いた語義タグ付き用例文生成手法2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 接尾辞を持つ単語の語義定義文とその分散表現の分析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] BERTの学習済みモデルを用いた語義定義文の類義判定に有効な日本語辞書の変更方法2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Effectiveness analysis of word sense disambiguation using example of word senses from WordNet2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Text classification using a graph based on relationships between documents2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Effective use of Japanese dictionary definition sentences in learning hierarchical embedding of dictionaries2022

著者名/発表者名

学会等名

関連する報告書

佐々木稔茨城大学, 理工学研究科(工学野), 准教授 (60344834)