word2vec等の埋め込み表現技術は,近年の言語処理において必須の基盤技術となりつつある.本課題を提案して以降,この分野の研究は様々な方向に急激に発展しているが,本研究は,構造化された記号情報と数値ベクトルを対応付ける記号・ニューラル学習法を,「半教師あり学習」の枠組みの中で実現することを目的としてきた.特に,知識ベース等の記号的構造情報と文書等の非構造化情報を統一的に扱う点に特徴がある. 提案者らは,これまで単語辞書の構造情報を用いて,単語の対義語関係や上位・下位語関係のベクトル表現を学習する先駆的な研究を実施してきた.本研究では,これらの研究を発展させ,文書中の情報と知識ベース中の概念構造を統合埋め込みベクトル空間に写像し,照合を可能にすることを目標としている. 2019年度は,前年度の成果に基づき,(1)subClassOf関係(上位下位関係)のPoincare埋め込みベクトル,および(2)文書情報のPoincare GloVeベクトルの2種類のベクトルを独立に構築し,両者を融合するレトロフィッティング法を新たに開発した.Poincare埋め込みは,WordNetの名詞のSynset階層構造を対象とし,文書情報としてはWikipediaの文章を対象とした.本レトロフィッティングは,Poincare埋め込みを骨格として,Poincare GloVeの全単語埋め込みベクトルの類似関係を維持しながら,Poincare埋め込みに合わせて配置する手法である.これにより,文書中に出現する単語のPoincare埋め込みを得ることができる.実験により, Poincare GloVeの上位下位関係の予測性能を改善できることを明らかにした.また,交通オントロジーに基づく交通文書に対する関係アノテーションを実施し,新しい交通コーパスを構築した.本コーパスは一般に公開していく.
|