2019 Fiscal Year Research-status Report
Word Sense Disambiguation Using Semi-supervised Deep Learning
Project/Area Number |
18K11422
|
Research Institution | Ibaraki University |
Principal Investigator |
佐々木 稔 茨城大学, 理工学研究科(工学野), 講師 (60344834)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 語義曖昧性解消 / 半教師あり学習 / グラフベース手法 |
Outline of Annual Research Achievements |
半教師ありディープラーニングに基づく語義曖昧性解消は大量の文書集合における単語の使用法と辞書の語義情報の両方を特徴として捉えるモデルとして期待されるが、これまでに2件の手法しか存在していない。しかし、これらの手法には「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という未解決の課題が存在する。そこで、本研究は語義の意味区分を考慮したシンプルな半教師ありディープラーニングを用いた高精度な語義曖昧性解消システムの開発を行った。 開発した半教師あり語義曖昧性解消システムの有効性を評価するため、日本語の評価データであるSemeval2010日本語タスクを使用し、語義曖昧性解消実験を行った。その結果、開発したシステムは既存の教師あり語義曖昧性解消システムと比較して、語義識別の精度が0.52%向上した。シンプルなグラフベースの半教師あり深層学習手法によって、少量の語義付き用例文でも高い精度の語義識別モデルの構築を実証できたと考えられる。 また、日本語書き言葉均衡コーパス(BCCWJ)の各ジャンルにおける語義なし用例文を用いた語義曖昧性解消実験を行い,どのような語義なしデータの利用が有効なのか分析を行った。その結果、BCCWJ全ての用例文を追加した場合よりも精度が低くなった。扱ったジャンルの中で語義識別精度が最も高くなったのは雑誌(PM)の用例文を追加した時であった。これらの結果より、ジャンルを限定して語義なし用例文を追加しても、語義曖昧性解消の精度にあまり効果がないことが明らかとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
開発した半教師ありディープラーニングを用いた高精度な語義曖昧性解消システムは既存の教師あり語義曖昧性解消システムと比較して語義識別の精度が0.52%向上した。従って、「語義曖昧性解消をシンプルな半教師ありディープラーニングを使ったモデルで構築できないか」「少量の語義付き用例文を利用して語義の特徴を捉えたディープラーニングモデルを構築できないか」という2つの課題に対して、効果的な手法を確立することができた。さらに、既存の半教師あり語義曖昧性解消システムとの比較実験においても開発した手法の有効性を実証することができた。そのため、本研究課題は現在までおおむね順調に進展できていると判断する。 これまでのところ、開発したシステムは既存の半教師あり語義曖昧性解消システムと比較して有効性を実証することができたが、現在グラフ構造の構築に対する新しい手法を考案し、更なる精度改善に取り組んでいる。使用する素性を統一して評価することで、新しいグラフ構造を用いた手法の有効性について検証している段階である。
|
Strategy for Future Research Activity |
開発したグラフニューラルネットワークを用いた語義曖昧性解消モデルにおけるグラフ学習用の隠れ層に対して、シソーラスや辞書の定義文などの外部情報を用いて語義識別の有効性を高めるように学習モデルの改良を行う。訓練データに少量しかない語義について用例文を追加することで、バランスの取れた語義また、用例文間の関係ではなく、単語の共起グラフを用いて外部情報を反映させるアプローチについても有用性の検討を行う。
|
Causes of Carryover |
研究成果の発表を次年度に持ち越したために次年度使用額が生じることとなった。開発したシステムの有効性と信頼性を高めるための比較実験に遅れが生じたことにより、2019年度中に研究成果の発表を行うことができなかった。2020年度に遅れた研究成果を発表する予定で、そのための旅費として使用する計画である。
|
-
-
-
[Presentation] NTCIR-15 QA Lab-PoliInfo2 のタスク設計2020
Author(s)
木村泰知, 渋木英潔, 高丸圭一 , 秋葉友良, 石下円香, 内田ゆず, 小川泰弘, 乙武北斗, 佐々木稔, 三田村照子, 横手健一, 吉岡真治, 神門典子
Organizer
言語処理学会第26回年次大会
-
-
-
-
-
-