複数の言語処理タスクを利用したデータ拡張法に基づくマルチラベル文書分類
Project/Area Number |
22K12146
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | University of Yamanashi |
Principal Investigator |
鈴木 良弥 山梨大学, 大学院総合研究部, 教授 (20206551)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | 半教師あり学習 / マルチラベル文書分類 / 分野依存語義 / 能動・受動変換 / データ拡張 |
Outline of Research at the Start |
本研究では膨大なラベル数を対象とした半教師ありマルチラベル分類において,高精度な分類を行うためのデータ拡張手法を開発することを目指す.データ拡張手法として語彙,句,文,及び文書の各々において意味の等価性が前提となる4種の言語処理タスクを半教師あり学習におけるデータ拡張に利用する.これらの言語処理タスクをマルチラベル文書分類の補助タスクとして活用することにより,双方の向上を目指す手法を開発する.
|
Outline of Annual Research Achievements |
現在実施中の「複数の言語処理タスクを利用したデータ拡張法に基づくマルチラベル文書分類」についての研究の令和4年度の実施予定は「局所的なノイズ生成手法の開発」であり,「分野依存語義の同定」と「構文構造に基づく能動・受動変換手法の提案」を行い,「実験の成果と公開」を行うことであった. 令和4年度はそのうち「分野依存語義の同定」についてYAGO[Fabian Suchanek, etc.]で定義されている分野語義とWordNet3.2の語義文を利用し,Quadruplet loss[Chen'17]により意味が等価であるか否かを学習・判定する実験を行った.予備的な実験のため,サイズの小さいデータを用いて実験を行ったが,YAGOの語義が非常に細かい分類であるにも関わらず分野依存語義の同定が可能であることが実験で確かめられた.また,この結果を利用して意味的に等価と判断された語義の単語をWordNetに掲載されている同義語で置き換えることができた.この後すぐにデータを増やして分野依存語義同定・同義語への置き換えの実験を行う予定である. 「構文構造に基づく能動・受動変換手法」については現在モデルを作成しており,RCV1 datasetを用いた実験を行う準備をしている. 令和4年度に実施した「分野依存語義の同定」と現在開発中の「構文構造に基づく能動・受動変換手法」をFixMatch(半教師付き学習)による弱データ拡張を令和5年度前半に実験を行い,その成果を令和5年度中に国際会議で発表する予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
令和4年度の実施予定は「局所的なノイズ生成手法の開発」であり,「分野依存語義の同定と構文構造に基づく能動・受動変換手法の提案」を行い,「実験の成果と公開」を行うことであった.それに対し,進捗状況はそのうち「分野依存語義の同定」についてYAGO[Fabian Suchanek, etc. 2007]で定義されている分野語義とWordNet3.2の語義文を利用し,Quadruplet loss[Chen2017]により意味が等価であるか否かを学習・判定する実験を行った.「構文構造に基づく能動・受動変換手法」に関する構文構造に基づく能動・受動変換手法については現在モデルを作成しており,令和5年度前半に実験を行い,その成果を公表する予定である.
|
Strategy for Future Research Activity |
令和5年度実施予定の「大域的なノイズ生成手法,およびデータ拡張法の開発」は令和4年度実施予定の「局所的なノイズ生成手法の開発」と同時に実施可能であるので,令和5年は両方とも実施する.「局所的なノイズ生成手法の開発」については「分野依存語義の同定」はすでにモデルを構築し,実験を行っている.「構文構造に基づく能動・受動変換」については現在モデル作成中で8月中に実験を行う.また,提案した2手法を半教師付き学習の1つであるFixMatchにおける弱データ拡張として用いることにより,マルチラベル文書分類の精度を検証する.これらの実験は10月までに終了させ,11月以降は「大域的なノイズ生成手法,およびデータ拡張法の開発」について実施する.令和5年度実施予定の「構文構造に基づく能動・受動変換」,「提案した2手法をFixMatch(半教師付き学習)による弱データ拡張」と「大域的なノイズ生成手法,およびデータ拡張法の開発」に関する実験は多大な計算量が必要になるため,令和5年度購入予定の計算サーバ(GPU NVIDIA A100)を用いて実施する予定である.
|
Report
(1 results)
Research Products
(3 results)