2018 Fiscal Year Research-status Report
Learning Timeline Difference for Text Categorization based on Global Features of Word Senses and Category Modification
Project/Area Number |
17K00299
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 大学院総合研究部, 教授 (60262648)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 分野依存語義 / 文書分類 / マルチタスク学習 |
Outline of Annual Research Achievements |
今年度は、分野依存語義を抽出し,その結果を文書分類に利用することにより精度の向上を目指す手法を提案した.分野依存語義の同定結果を文書分類タスクへ統合する方法として,本研究ではマルチタスク学習を利用した.マルチタスク学習は2つ以上のタスクを同時に利用するため,分野依存語義の解消タスクの出力結果が文書分類に大きな影響を及ぼす.そこで,事前に分野依存語義同定タスクのみを学習させ,学習が安定した後に,文書分類タスクと統合し,マルチタスク学習を行う手法を提案した.今年度の研究の貢献は,以下の3点に集約できる.(1)分野依存語義の解消により,それぞれの語義ごとに単語ベクトルを割り当て,その結果を文書分類に利用する手法を提案した.(2) 大域的な情報が付与された文書情報をTransformer Encoderから生成し, 分野依存語義の解消タスクを文書分類タスクに相補的に利用するマルチタスク学習の手法を提案した.(3) マルチタスク学習を行う際に,分野依存語義の解消タスクを事前に学習させ,語義予測が安定した後に文書分類タスクと統合する手法を提案した. ロイター,AGテキスト,AQUAINT, 20newsの4つからなるコーパスを用いて実験した結果,20newsコーパスを除く全てのデータで本手法の有効性が確認できた.さらに訓練データ量を80%から20%に減らしても本手法は,関連研究よりも高い精度が得られていることから,少量のデータに対しても本手法は有効であることが検証できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の計画は,大域的な分野依存語義を抽出することであり,抽出と文書分類への適用を実施済であるためおおむね順調に進展している.
|
Strategy for Future Research Activity |
来年度は,分野依存語義の抽出結果が文書分類に有効であることを定量的に示すことである.分野依存語義をSenseval2, 3 からsemeval2007, 2013, 2015へと増やし,定量的な実験を実施する予定である.またさらなる精度向上を目指すため,マルチタスク学習の拡張を実施する予定である.提案手法の有効性を検証するための関連研究の比較として、CNN他, Char-CNN, VDCNN, RCNN,及びFastTextらのsingle-taskの各手法との比較を実施する。また、分野依存語義の有無による精度比較を実施する。さらにBERT, ELMOなどの単語埋め込み表現の有無による精度比較を実施する。
|
Causes of Carryover |
平成30年度に実装予定であった手法に時間を要したことからサーバーの購入を令和元年度に見送ったこと、及び2本の投稿論文のうち、1本が不採択であったため、次年度使用額が生じた。幸い、手法に目途がたち定量的な実験が可能であること、また令和元年5月に論文が採択されたため、サーバーの購入と海外出張旅費を計上する。
|