• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Multi-label short text classification based on domain specific-senses and its relation

Research Project

Project/Area Number 21K12026
Research InstitutionUniversity of Yamanashi

Principal Investigator

福本 文代  山梨大学, 大学院総合研究部, 教授 (60262648)

Project Period (FY) 2021-04-01 – 2024-03-31
Keywords分野語義 / マルチラベルショートテキスト / 階層構造 / 文書分類
Outline of Annual Research Achievements

本研究の目的は, マルチラベルショートテキストを階層構造へ高精度で分類する手法を開発することである. 本研究の特色は, (1) 分野依存語義 (例えば”court” がスポーツ分野の記事に出現する場合, テニスコートの意味, 法律の分野では裁判所の意味でよく用いられるなど), (2) 分野同士の関係,及び (3) テキスト中の語義と分野語義との関連を学習した結果 (以降, (2) と (3) を意味表現学習と呼ぶ) をテキスト分類に利用する点に集約できる.

今年度の計画は,1. 分野間の意味表現学習と 2. ショートテキスト中の語彙,分野名,及びそれらの関係性についても表現学習を提案することである.1. 及び2. についてBERTモデルをコピーし,分野間とテキスト中の単語間をそれぞれ単独で学習する.さらに,BERTの一方から得られる分野と他方から得られるテキスト中の単語に対し、分野と単語間の関係を学習することにより,文書分類を行う手法を提案した.

実験ではベンチマークデータセットであるロイター,New York Times,及びWeb of Scienceを用いて実験を行った.実験の結果,提案手法は,全てのデータにおいて関連研究であるHyMatch,及びHGCLRよりもMicro, Macro-F1の精度が上回る結果,具体的には,RCV1では,2位であるHiMatchtと比較しMacroで3.39%, 同様にNYTでは,2位であるHCCLRと比較しMacro, Micro各々0.56%, 0.18%精度が向上することを確認した.一方,最先端手法であるHPT(Hierarchy-aware Prompt Tuning for Hierarchical Text Classification)と比較するとわずかに精度が下回る結果となった.今後は分野の階層構造を取り入れる手法を検討し、さらなる精度向上を目指す.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

今年度は1. 分野間の意味表現学習と 2. ショートテキスト中の語彙,分野名,及びそれらの関係性についても表現学習により文書分類を行う手法を提案する計画であり,精度が関連研究で報告されている最高精度には僅かに及ばなかったものの,おおむね計画通りに進展できている.

今後改良すべき点について,分野間,単語間,及び分野と単語の関連性に加え,分野の階層構造をモデルに組み込むことが明らかになっているため,さらなる精度の向上を目指し,引き続き改良を行う.

Strategy for Future Research Activity

最終年度である令和5年度は,さらなる精度向上を目指し,階層構造の表現方法について提案する.具体的には,分野間の関係を学習するBERTモデルに対し,分野の階層構造を組み入れる方法を提案する.さらに,階層構造の下位では,分野同士の粒度が細かく各分野の特徴を学習することが困難であることから,新たに大量のラベルなしデータと少量のラベルデータを利用したsemi-supervised contrastive learning を適用することにより,階層構造の下位分野についても高精度な分類が行えるよう改良する.

評価実験については階層構造を持つ3種類のデータであるRCV1 (Reuter's Corpus), NYT (New York Times), 及びWeb of Science (WOS)による定量的な評価,及び階層構造を利用した最先端手法であるHPTとの比較を実施する.また,Ablation study により,精度に最も貢献する要素についても明らかにする.

Causes of Carryover

当初,国際学会での発表を2件予定していたが,投稿済の論文が不採択であったため,次年度使用額が生じた.不採択となった2件の論文については,令和5年度に,再度改良し投稿し直す.謝金については,代表者により作業を終えることができたため,謝金の予算を令和5年度計画において実施する研究の成果に関する投稿費用として使用する.

  • Research Products

    (5 results)

All 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (4 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] STaTRL: Spatial-Temporal and Text Representation Learning for POI Recommendation2022

    • Author(s)
      XinFeng Wang, Fumiyo Fukumoto, Jiyi Li, Dongjin Yu, and Xiaoxiao Sun
    • Journal Title

      APPLIED INTELLIGENCE

      Volume: - Pages: -

    • DOI

      10.1007/s10489-022-03858-w

    • Peer Reviewed
  • [Presentation] Disentangling Meaning and Style for Positive Text Reframing2023

    • Author(s)
      Xu Sheng, Yoshimi Suzuki, Jiyi Li, Kentaro Go, and Fumiyo Fukumoto
    • Organizer
      言語処理学会第29回年次大会
  • [Presentation] Improving Peer-Review Score Prediction with Semi-Supervised Learning and Denoising Networks2023

    • Author(s)
      Panitan Muangkammuen, Fumiyo Fukumoto, Jiyi Li, and Yoshimi Suzuki
    • Organizer
      言語処理学会大29回年次大会
  • [Presentation] A Multi-task based Bilateral-Branch Network for Imbalanced Citation Intent Classification2022

    • Author(s)
      Tianxiang Hu, Jiyi Li, Fumiyo Fukumoto, Renjie Zhou
    • Organizer
      IMCOM
    • Int'l Joint Research
  • [Presentation] Exploiting Labeled and Unlabeled Data via Transformer Fine-tuning for Peer-Review Score Prediction2022

    • Author(s)
      Panitan Muangkammuen, Fumiyo Fukumoto, Jiyi Li, and Yoshimi Suzuki
    • Organizer
      Findings of the 2022 Conference on Empirical Methods in Natural Language Processing
    • Int'l Joint Research

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi