2021 Fiscal Year Research-status Report
Word Sense Disambiguation Using Semi-supervised Deep Learning
Project/Area Number |
18K11422
|
Research Institution | Ibaraki University |
Principal Investigator |
佐々木 稔 茨城大学, 理工学研究科(工学野), 准教授 (60344834)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 自然言語処理 / 語義曖昧性解消 / 機械学習 |
Outline of Annual Research Achievements |
半教師ありディープラーニングに基づく語義曖昧性解消は大量の文書集合における単語の使用法と辞書の語義情報の両方を特徴として捉えるモデルとして期待されるが、これまでに2件の手法しか存在していない。しかし、これらの手法には「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という未解決の課題が存在する。そこで、本研究は半教師ありディープラーニングを用いて対象単語前後の単語からなる特徴ベクトルと用例文間の関係を表すグラフ埋め込みベクトルによる高精度な語義曖昧性解消システムの開発を行った。 入力した用例文を学習済み言語モデルを用いて得られた特徴ベクトルと、用例文間の関係(類似度行列)を表すグラフ構造に対してグラフ埋め込みを学習して得られたグラフのベクトルを計算し、これらを連結したベクトルから適切な語義を出力できるニューラルネットワークの学習を行う。テストデータも同様に学習されたモデルに入力することで、対象単語の語義を予測することができる。 開発した半教師あり語義曖昧性解消システムの有効性を評価するため、日本語の評価データであるSemeval2010日本語タスクデータを使用し、語義曖昧性解消実験を行った。その結果、開発したシステムは既存の日本語半教師あり語義曖昧性解消システムと比較して、語義識別の精度が1.73%向上した。また、英語の評価データであるSENSEVAL-2 English Lexical Taskデータを使用して語義曖昧性解消実験を行った結果、最高精度が得られた従来手法と比較して精度が3%向上した。これらの結果より開発システムが語義曖昧性解消に有効であることを示すことができた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
開発した半教師ありディープラーニングを用いた語義曖昧性解消システムは日本語と英語の評価データにおいて既存の半教師あり語義曖昧性解消システムと比較して語義識別の精度が向上した。従って、「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という2つの課題に対して、効果的な手法を確立することができた。 これまでにこれらの研究成果を国際会議と論文誌において発表することができた。しかし、多数の語義を持つ語や語義間で出現頻度の偏りが大きい語のような難易度が高い単語について、どのような識別誤りの傾向があるのか考察するまでには至っていない。これらの課題を解決し、今後の改良につなげる必要があるため、現時点において本研究課題の進捗はやや遅れていると考えられる。
|
Strategy for Future Research Activity |
これまでのところ、開発したシステムは既存の半教師あり語義曖昧性解消システムと比較して有効性を実証することができた。現在はグラフ構造の効率的な構築手法の開発と誤り分析を行っており、更なる精度改善に取り組んでいる。 開発したグラフニューラルネットワークを用いた語義曖昧性解消モデルにおけるグラフ学習用の隠れ層に対して、シソーラスや辞書の定義文などの外部情報を用いて語義識別の有効性を高めるように学習モデルの改良を行う。訓練データに少量しかない語義について用例文を追加することで、バランスの取れた語義また、用例文間の関係ではなく、単語の共起グラフを用いて外部情報を反映させるアプローチについても有用性の検討を行う。 2022年度はこれまでの研究成果を総括し、今後の研究につながるように更なる語義曖昧性解消システムの改良と現状での課題の分析を行う予定である。また、2021年度までに発表できなかった研究成果についても発表を行う予定である。
|
Causes of Carryover |
語義曖昧性解消システムの識別精度をさらに向上させるため、シソーラスや係り受け情報などの外部情報が有用であることを明らかにする。このシステムの有効性を示すための評価実験に遅れが生じたことが大きな要因である。 シソーラスから得られる単語間の上位下位関係や類義語関係、係り受け情報から得られる詳細な共起関係をグラフ構造に反映することで、用例文間の意味的な関係を表現する。そのための情報収集や開発にかかる費用および国際会議発表旅費として翌年度分に繰り越した補助金を使用する予定である。
|
Research Products
(6 results)