• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

Word Sense Disambiguation Using Semi-supervised Deep Learning

Research Project

Project/Area Number 18K11422
Research InstitutionIbaraki University

Principal Investigator

佐々木 稔  茨城大学, 理工学研究科(工学野), 准教授 (60344834)

Project Period (FY) 2018-04-01 – 2023-03-31
Keywords自然言語処理 / 語義曖昧性解消 / 機械学習
Outline of Annual Research Achievements

半教師ありディープラーニングに基づく語義曖昧性解消は大量の文書集合における単語の使用法と辞書の語義情報の両方を特徴として捉えるモデルとして期待されるが、これまでに2件の手法しか存在していない。しかし、これらの手法には「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という未解決の課題が存在する。そこで、本研究は半教師ありディープラーニングを用いて対象単語前後の単語からなる特徴ベクトルと用例文間の関係を表すグラフ埋め込みベクトルによる高精度な語義曖昧性解消システムの開発を行った。
入力した用例文を学習済み言語モデルを用いて得られた特徴ベクトルと、用例文間の関係(類似度行列)を表すグラフ構造に対してグラフ埋め込みを学習して得られたグラフのベクトルを計算し、これらを連結したベクトルから適切な語義を出力できるニューラルネットワークの学習を行う。テストデータも同様に学習されたモデルに入力することで、対象単語の語義を予測することができる。
開発した半教師あり語義曖昧性解消システムの有効性を評価するため、日本語の評価データであるSemeval2010日本語タスクデータを使用し、語義曖昧性解消実験を行った。その結果、開発したシステムは既存の日本語半教師あり語義曖昧性解消システムと比較して、語義識別の精度が1.73%向上した。また、英語の評価データであるSENSEVAL-2 English Lexical Taskデータを使用して語義曖昧性解消実験を行った結果、最高精度が得られた従来手法と比較して精度が3%向上した。これらの結果より開発システムが語義曖昧性解消に有効であることを示すことができた。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

開発した半教師ありディープラーニングを用いた語義曖昧性解消システムは日本語と英語の評価データにおいて既存の半教師あり語義曖昧性解消システムと比較して語義識別の精度が向上した。従って、「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という2つの課題に対して、効果的な手法を確立することができた。
これまでにこれらの研究成果を国際会議と論文誌において発表することができた。しかし、多数の語義を持つ語や語義間で出現頻度の偏りが大きい語のような難易度が高い単語について、どのような識別誤りの傾向があるのか考察するまでには至っていない。これらの課題を解決し、今後の改良につなげる必要があるため、現時点において本研究課題の進捗はやや遅れていると考えられる。

Strategy for Future Research Activity

これまでのところ、開発したシステムは既存の半教師あり語義曖昧性解消システムと比較して有効性を実証することができた。現在はグラフ構造の効率的な構築手法の開発と誤り分析を行っており、更なる精度改善に取り組んでいる。
開発したグラフニューラルネットワークを用いた語義曖昧性解消モデルにおけるグラフ学習用の隠れ層に対して、シソーラスや辞書の定義文などの外部情報を用いて語義識別の有効性を高めるように学習モデルの改良を行う。訓練データに少量しかない語義について用例文を追加することで、バランスの取れた語義また、用例文間の関係ではなく、単語の共起グラフを用いて外部情報を反映させるアプローチについても有用性の検討を行う。
2022年度はこれまでの研究成果を総括し、今後の研究につながるように更なる語義曖昧性解消システムの改良と現状での課題の分析を行う予定である。また、2021年度までに発表できなかった研究成果についても発表を行う予定である。

Causes of Carryover

語義曖昧性解消システムの識別精度をさらに向上させるため、シソーラスや係り受け情報などの外部情報が有用であることを明らかにする。このシステムの有効性を示すための評価実験に遅れが生じたことが大きな要因である。
シソーラスから得られる単語間の上位下位関係や類義語関係、係り受け情報から得られる詳細な共起関係をグラフ構造に反映することで、用例文間の意味的な関係を表現する。そのための情報収集や開発にかかる費用および国際会議発表旅費として翌年度分に繰り越した補助金を使用する予定である。

  • Research Products

    (6 results)

All 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (5 results) (of which Int'l Joint Research: 3 results,  Invited: 1 results)

  • [Journal Article] 用例文間の意味的な類似関係を用いた半教師あり語義曖昧性解消2021

    • Author(s)
      谷田部梨恵, 佐々木稔
    • Journal Title

      情報処理学会論文誌

      Volume: 62 Pages: 1724~1736

    • Peer Reviewed
  • [Presentation] Japanese Word Sense Disambiguation Using Gloss Information of a Japanese Dictionary2021

    • Author(s)
      Hiroki Okemoto, Minoru Sasaki
    • Organizer
      the Thirteenth International Conference on Information, Process, and Knowledge Management (eKnow2021)
    • Int'l Joint Research
  • [Presentation] Person Name Extraction from TV program Using Pre-trained Language Model and News Headlines2021

    • Author(s)
      Kazuki Oda, Minoru Sasaki
    • Organizer
      the 12th International Conference on E-Service and Knowledge Management (ESKM 2021)
    • Int'l Joint Research
  • [Presentation] The reliability of word meanings in online dictionaries and how word meanings change over time2021

    • Author(s)
      Minoru Sasaki
    • Organizer
      The Thirteenth International Conference on Pervasive Patterns and Applications (PATTERNS2021)
    • Int'l Joint Research / Invited
  • [Presentation] 辞書の階層構造埋め込み学習における日本語辞書定義文の効果的な利用2021

    • Author(s)
      石井佑樹, 佐々木稔
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] 語義の例文を使用した語義曖昧性解消の有効性分析2021

    • Author(s)
      関谷洸, 佐々木稔
    • Organizer
      言語処理学会第26回年次大会

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi