Multi-label short text classification based on domain specific-senses and its relation
Project/Area Number |
21K12026
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 大学院総合研究部, 教授 (60262648)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2021: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 分野語義 / マルチラベルショートテキスト / 階層構造 / 文書分類 / 分野依存語義 / 語義の曖昧性解消 |
Outline of Research at the Start |
本研究は、複数の分野が付与された短い単語列からなるテキスト、すなわちマルチラベルショートテキストを対象とし、これらを階層構造へ分類するために有効な語彙的意味処理技術と機械学習法を開発することを目的とする。
|
Outline of Annual Research Achievements |
本研究の目的は, マルチラベルショートテキストを階層構造へ高精度で分類する手法を開発することである. 本研究の特色は, (1) 分野依存語義 (例えば”court” がスポーツ分野の記事に出現する場合, テニスコートの意味, 法律の分野では裁判所の意味でよく用いられるなど), (2) 分野同士の関係,及び (3) テキスト中の語義と分野語義との関連を学習した結果 (以降, (2) と (3) を意味表現学習と呼ぶ) をテキスト分類に利用する点に集約できる.
今年度の計画は,1. 分野間の意味表現学習と 2. ショートテキスト中の語彙,分野名,及びそれらの関係性についても表現学習を提案することである.1. 及び2. についてBERTモデルをコピーし,分野間とテキスト中の単語間をそれぞれ単独で学習する.さらに,BERTの一方から得られる分野と他方から得られるテキスト中の単語に対し、分野と単語間の関係を学習することにより,文書分類を行う手法を提案した.
実験ではベンチマークデータセットであるロイター,New York Times,及びWeb of Scienceを用いて実験を行った.実験の結果,提案手法は,全てのデータにおいて関連研究であるHyMatch,及びHGCLRよりもMicro, Macro-F1の精度が上回る結果,具体的には,RCV1では,2位であるHiMatchtと比較しMacroで3.39%, 同様にNYTでは,2位であるHCCLRと比較しMacro, Micro各々0.56%, 0.18%精度が向上することを確認した.一方,最先端手法であるHPT(Hierarchy-aware Prompt Tuning for Hierarchical Text Classification)と比較するとわずかに精度が下回る結果となった.今後は分野の階層構造を取り入れる手法を検討し、さらなる精度向上を目指す.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は1. 分野間の意味表現学習と 2. ショートテキスト中の語彙,分野名,及びそれらの関係性についても表現学習により文書分類を行う手法を提案する計画であり,精度が関連研究で報告されている最高精度には僅かに及ばなかったものの,おおむね計画通りに進展できている.
今後改良すべき点について,分野間,単語間,及び分野と単語の関連性に加え,分野の階層構造をモデルに組み込むことが明らかになっているため,さらなる精度の向上を目指し,引き続き改良を行う.
|
Strategy for Future Research Activity |
最終年度である令和5年度は,さらなる精度向上を目指し,階層構造の表現方法について提案する.具体的には,分野間の関係を学習するBERTモデルに対し,分野の階層構造を組み入れる方法を提案する.さらに,階層構造の下位では,分野同士の粒度が細かく各分野の特徴を学習することが困難であることから,新たに大量のラベルなしデータと少量のラベルデータを利用したsemi-supervised contrastive learning を適用することにより,階層構造の下位分野についても高精度な分類が行えるよう改良する.
評価実験については階層構造を持つ3種類のデータであるRCV1 (Reuter's Corpus), NYT (New York Times), 及びWeb of Science (WOS)による定量的な評価,及び階層構造を利用した最先端手法であるHPTとの比較を実施する.また,Ablation study により,精度に最も貢献する要素についても明らかにする.
|
Report
(2 results)
Research Products
(9 results)