本研究は all-words WSD を系列ラベリング問題として定式化し,順方向 LSTM(Long-Short Term Memory) と逆方向 LSTM の共学習 (以下 Co-training)による半教師あり学習を行うことで,少量のラベル付きデータと大量のラベルなしデータから高精度な all-words WSD システムを構築する手法を確立することを目的とした. 本研究が採択された後,2018 年末に Google が発表した BERT により,本研究を含む多くの自然言語処理研究が方向転換を余儀なくされている.従来の LSTM が BERT によって完全に凌駕されたからである.本研究についても,本質的には BERT により実現されている.そのため本研究課題は BERT の技術調査と all-words WSD と BERT との関連を中心に研究を進めてきた.昨年度は BERT を実際に all-words WSD として利用するための手法,及びその手法を用いた他のタスクへの応用に関して研究を進めた.all-words WSD に関しては HuggingFace から提供される BertForSequenceClassification というモデルを使えば,容易に実現できることが判明し,いくつかのモデルを構築した.ただし BERT は巨大なモデルであるため,その学習時間と推論時間が膨大になるという問題点があることも判明した.そこで BERT を領域特化型にすることで学習時間と推論時間を削減する研究も合わせて行った. 本研究課題の研究実績としては,本年度は BERT 関連の研究を国際会議と研究会において計10件の発表を行った.
|