研究実績の概要 |
本研究の目的は, マルチラベルショートテキストを階層構造へ高精度で分類する手法を開発することである. 本研究の特色は, (1) 分野依存語義 (例えば”court” がスポーツ分野の記事に出現する場合, テニスコートの意味, 法律の分野では裁判所の意味でよく用いられるなど), (2) 分野同士の関係,及び (3) テキスト中の語義と分野語義との関連を学習した結果 (以降, (2) と (3) を意味表現学習と呼ぶ) をテキスト分類に利用する点に集約できる.
今年度の計画は,1. 分野間の意味表現学習と 2. ショートテキスト中の語彙,分野名,及びそれらの関係性についても表現学習を提案することである.1. 及び2. についてBERTモデルをコピーし,分野間とテキスト中の単語間をそれぞれ単独で学習する.さらに,BERTの一方から得られる分野と他方から得られるテキスト中の単語に対し、分野と単語間の関係を学習することにより,文書分類を行う手法を提案した.
実験ではベンチマークデータセットであるロイター,New York Times,及びWeb of Scienceを用いて実験を行った.実験の結果,提案手法は,全てのデータにおいて関連研究であるHyMatch,及びHGCLRよりもMicro, Macro-F1の精度が上回る結果,具体的には,RCV1では,2位であるHiMatchtと比較しMacroで3.39%, 同様にNYTでは,2位であるHCCLRと比較しMacro, Micro各々0.56%, 0.18%精度が向上することを確認した.一方,最先端手法であるHPT(Hierarchy-aware Prompt Tuning for Hierarchical Text Classification)と比較するとわずかに精度が下回る結果となった.今後は分野の階層構造を取り入れる手法を検討し、さらなる精度向上を目指す.
|
今後の研究の推進方策 |
最終年度である令和5年度は,さらなる精度向上を目指し,階層構造の表現方法について提案する.具体的には,分野間の関係を学習するBERTモデルに対し,分野の階層構造を組み入れる方法を提案する.さらに,階層構造の下位では,分野同士の粒度が細かく各分野の特徴を学習することが困難であることから,新たに大量のラベルなしデータと少量のラベルデータを利用したsemi-supervised contrastive learning を適用することにより,階層構造の下位分野についても高精度な分類が行えるよう改良する.
評価実験については階層構造を持つ3種類のデータであるRCV1 (Reuter's Corpus), NYT (New York Times), 及びWeb of Science (WOS)による定量的な評価,及び階層構造を利用した最先端手法であるHPTとの比較を実施する.また,Ablation study により,精度に最も貢献する要素についても明らかにする.
|