2018 Fiscal Year Research-status Report
Word Sense Disambiguation Using Semi-supervised Deep Learning
Project/Area Number |
18K11422
|
Research Institution | Ibaraki University |
Principal Investigator |
佐々木 稔 茨城大学, 理工学研究科(工学野), 講師 (60344834)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 語義曖昧性解消 / 意味解析 / 自然言語処理 / グラフニューラルネットワーク / 半教師あり学習 |
Outline of Annual Research Achievements |
半教師ありディープラーニングに基づく語義曖昧性解消は大量の文書集合における単語の使用法と辞書の語義情報の両方を特徴として捉えるモデルとして期待されるが、これまでに2件の手法しか存在していない。しかし、これらの手法には「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という未解決の課題が存在する。そこで、本研究は語義の意味区分を考慮したシンプルな半教師ありディープラーニングを用いた高精度な語義曖昧性解消システムの開発を実施した。 この手法は対象単語の語義付き用例文集合と語義なし用例文集合の他に、用例文間の関係(類似度行列)を表すグラフ構造を入力する。用例文に対して対象単語の周辺に共起する単語の頻度を計算し、文脈ベクトルに変換する。すべての文脈ベクトルを用いてラベル伝搬法に類似する方法で用例文間の関係を各隠れ層で学習し、その関係と文脈ベクトルを用いて予測語義の学習を行う。テストデータも同様に学習されたモデルに入力することで、対象単語の語義を予測することができる。 システムの有効性を評価するため、日本語の評価データであるSemeval2010日本語タスクを使用し、語義曖昧性解消実験を行った。その結果、開発したシステムは既存の教師あり語義曖昧性解消システムと比較して、語義識別の精度が0.52%向上した。シンプルなグラフベースの半教師あり深層学習手法によって、少量の語義付き用例文でも高い精度の語義識別モデルの構築を実証できたと考えられる。既存の半教師ありシステムと比較すると約1.3%精度の低下があったが、使用する素性を統一して評価することで、半教師あり深層学習手法の有効性を検証できるという道筋を捉えることができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
開発した半教師ありディープラーニングを用いた高精度な語義曖昧性解消システムは既存の教師あり語義曖昧性解消システムと比較して語義識別の精度が0.52%向上した。従って、「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という2つの課題に対する効果的で、新しい手法を確立することができた。そのため、本研究課題は現在までおおむね順調に進展できていると判断する。 これまでのところ、開発したシステムは既存の教師あり語義曖昧性解消システムと比較して有効性を実証することができたが、既存の半教師あり語義曖昧性解消システムとの比較では有効性を実証できていない状況にある。現在、使用する素性を統一して評価することで、開発システムが半教師あり語義曖昧性解消手法として有効であることを検証している段階である。
|
Strategy for Future Research Activity |
開発したグラフニューラルネットワークを用いた語義曖昧性解消モデルにおけるグラフ学習用の隠れ層に対して、シソーラスや係り受け情報などの外部情報を用いて語義識別の有効性を高めるように学習モデルの改良を行う。この改良によって、語義曖昧性解消システムの識別精度がさらに向上し、シソーラスや係り受け情報などの外部情報が有用であることを明らかにする。シソーラスから得られる単語間の上位下位関係や類義語関係、係り受け情報から得られる詳細な共起関係をグラフ構造に反映することで、有効性をさらに向上した用例文間の意味的な関係を構築する。また、用例文間の関係ではなく、単語の共起グラフを用いて外部情報を反映させるアプローチについても有用性の検討を行う。
|
Causes of Carryover |
研究成果の発表を次年度に持ち越したために次年度使用額が生じることとなった。開発したシステムの有効性と信頼性を高めるための比較実験に遅れが生じたことにより、2018年度中に研究成果の発表を行うことができなかった。この比較実験を2019年度の早い時期に研究成果として発表する予定で、そのための旅費として使用する計画である。
|
Research Products
(6 results)