研究実績の概要 |
今年度は、分野依存語義を抽出し,その結果を文書分類に利用することにより精度の向上を目指す手法を提案した.分野依存語義の同定結果を文書分類タスクへ統合する方法として,本研究ではマルチタスク学習を利用した.マルチタスク学習は2つ以上のタスクを同時に利用するため,分野依存語義の解消タスクの出力結果が文書分類に大きな影響を及ぼす.そこで,事前に分野依存語義同定タスクのみを学習させ,学習が安定した後に,文書分類タスクと統合し,マルチタスク学習を行う手法を提案した.今年度の研究の貢献は,以下の3点に集約できる.(1)分野依存語義の解消により,それぞれの語義ごとに単語ベクトルを割り当て,その結果を文書分類に利用する手法を提案した.(2) 大域的な情報が付与された文書情報をTransformer Encoderから生成し, 分野依存語義の解消タスクを文書分類タスクに相補的に利用するマルチタスク学習の手法を提案した.(3) マルチタスク学習を行う際に,分野依存語義の解消タスクを事前に学習させ,語義予測が安定した後に文書分類タスクと統合する手法を提案した. ロイター,AGテキスト,AQUAINT, 20newsの4つからなるコーパスを用いて実験した結果,20newsコーパスを除く全てのデータで本手法の有効性が確認できた.さらに訓練データ量を80%から20%に減らしても本手法は,関連研究よりも高い精度が得られていることから,少量のデータに対しても本手法は有効であることが検証できた.
|
今後の研究の推進方策 |
来年度は,分野依存語義の抽出結果が文書分類に有効であることを定量的に示すことである.分野依存語義をSenseval2, 3 からsemeval2007, 2013, 2015へと増やし,定量的な実験を実施する予定である.またさらなる精度向上を目指すため,マルチタスク学習の拡張を実施する予定である.提案手法の有効性を検証するための関連研究の比較として、CNN他, Char-CNN, VDCNN, RCNN,及びFastTextらのsingle-taskの各手法との比較を実施する。また、分野依存語義の有無による精度比較を実施する。さらにBERT, ELMOなどの単語埋め込み表現の有無による精度比較を実施する。
|