2020 Fiscal Year Research-status Report
Word Sense Disambiguation Using Semi-supervised Deep Learning
Project/Area Number |
18K11422
|
Research Institution | Ibaraki University |
Principal Investigator |
佐々木 稔 茨城大学, 理工学研究科(工学野), 講師 (60344834)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 語義曖昧性解消 / 半教師あり学習 / グラフベース手法 |
Outline of Annual Research Achievements |
半教師ありディープラーニングに基づく語義曖昧性解消は大量の文書集合における単語の使用法と辞書の語義情報の両方を特徴として捉えるモデルとして期待されるが、これまでに2件の手法しか存在していない。しかし、これらの手法には「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という未解決の課題が存在する。そこで、本研究は半教師ありディープラーニングを用いて対象単語前後の単語からなる特徴ベクトルと用例文間の関係を表すグラフ埋め込みベクトルによる高精度な語義曖昧性解消システムの開発を行った。 入力した用例文を学習済み言語モデルを用いて得られた特徴ベクトルと、用例文間の関係(類似度行列)を表すグラフ構造に対してグラフ埋め込みを学習して得られたグラフのベクトルを計算し、これらを連結したベクトルから適切な語義を出力できるニューラルネットワークの学習を行う。テストデータも同様に学習されたモデルに入力することで、対象単語の語義を予測することができる。 開発した半教師あり語義曖昧性解消システムの有効性を評価するため、日本語の評価データであるSemeval2010日本語タスクデータを使用し、語義曖昧性解消実験を行った。その結果、開発したシステムは既存の日本語半教師あり語義曖昧性解消システムと比較して、語義識別の精度が1.73%向上した。また、英語の評価データであるSENSEVAL-2 English Lexical Taskデータを使用して語義曖昧性解消実験を行った結果、最高精度が得られた従来手法と比較して精度が3%向上した。これらの結果より開発システムが語義曖昧性解消に有効であることを示すことができた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
開発した半教師ありディープラーニングを用いた語義曖昧性解消システムは日本語と英語の評価データにおいて既存の半教師あり語義曖昧性解消システムと比較して語義識別の精度が向上した。従って、「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という2つの課題に対して、効果的な手法を確立することができた。 これまでにこれらの研究成果を国際会議において発表することができたが、そこで指摘された課題とジャーナルに投稿した際に指摘された課題を解決するまでには至っていない。これらの課題を解決し、再度ジャーナル誌に投稿する必要があるため、現時点において本研究課題の進捗はやや遅れていると考えられる。
|
Strategy for Future Research Activity |
国際会議と論文誌に投稿した際に指摘された課題に対して再検証と再実験を行うことによって、研究成果がさらに信頼性の高い結論となるように研究を進める予定である。日本語と英語で性能評価を行う際に異なる設定で実験を行っていたため、できる限り日英で実験設定を合わせて評価を行う。再検証を行った研究成果については改めて論文誌に投稿して成果報告を行う予定である。
|
Causes of Carryover |
研究成果の発表を次年度に持ち越したために次年度使用額が生じることとなった。開発したシステムの有効性と信頼性をさらに高めるための比較実験に遅れが生じたことが大きな要因である。2020年度中に完了できなかった研究成果報告を2021年度に発表する予定で、そのための再実験費用と論文誌の掲載料として研究費を使用する計画である。
|
Research Products
(4 results)