研究課題/領域番号 |
22K12146
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 山梨大学 |
研究代表者 |
鈴木 良弥 山梨大学, 大学院総合研究部, 教授 (20206551)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 半教師あり学習 / マルチラベル文書分類 / 分野依存語義 / 能動・受動変換 / データ拡張 |
研究開始時の研究の概要 |
本研究では膨大なラベル数を対象とした半教師ありマルチラベル分類において,高精度な分類を行うためのデータ拡張手法を開発することを目指す.データ拡張手法として語彙,句,文,及び文書の各々において意味の等価性が前提となる4種の言語処理タスクを半教師あり学習におけるデータ拡張に利用する.これらの言語処理タスクをマルチラベル文書分類の補助タスクとして活用することにより,双方の向上を目指す手法を開発する.
|
研究実績の概要 |
現在実施中の「複数の言語処理タスクを利用したデータ拡張法に基づくマルチラベル文書分類」についての研究の令和4年度の実施予定は「局所的なノイズ生成手法の開発」であり,「分野依存語義の同定」と「構文構造に基づく能動・受動変換手法の提案」を行い,「実験の成果と公開」を行うことであった. 令和4年度はそのうち「分野依存語義の同定」についてYAGO[Fabian Suchanek, etc.]で定義されている分野語義とWordNet3.2の語義文を利用し,Quadruplet loss[Chen'17]により意味が等価であるか否かを学習・判定する実験を行った.予備的な実験のため,サイズの小さいデータを用いて実験を行ったが,YAGOの語義が非常に細かい分類であるにも関わらず分野依存語義の同定が可能であることが実験で確かめられた.また,この結果を利用して意味的に等価と判断された語義の単語をWordNetに掲載されている同義語で置き換えることができた.この後すぐにデータを増やして分野依存語義同定・同義語への置き換えの実験を行う予定である. 「構文構造に基づく能動・受動変換手法」については現在モデルを作成しており,RCV1 datasetを用いた実験を行う準備をしている. 令和4年度に実施した「分野依存語義の同定」と現在開発中の「構文構造に基づく能動・受動変換手法」をFixMatch(半教師付き学習)による弱データ拡張を令和5年度前半に実験を行い,その成果を令和5年度中に国際会議で発表する予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
令和4年度の実施予定は「局所的なノイズ生成手法の開発」であり,「分野依存語義の同定と構文構造に基づく能動・受動変換手法の提案」を行い,「実験の成果と公開」を行うことであった.それに対し,進捗状況はそのうち「分野依存語義の同定」についてYAGO[Fabian Suchanek, etc. 2007]で定義されている分野語義とWordNet3.2の語義文を利用し,Quadruplet loss[Chen2017]により意味が等価であるか否かを学習・判定する実験を行った.「構文構造に基づく能動・受動変換手法」に関する構文構造に基づく能動・受動変換手法については現在モデルを作成しており,令和5年度前半に実験を行い,その成果を公表する予定である.
|
今後の研究の推進方策 |
令和5年度実施予定の「大域的なノイズ生成手法,およびデータ拡張法の開発」は令和4年度実施予定の「局所的なノイズ生成手法の開発」と同時に実施可能であるので,令和5年は両方とも実施する.「局所的なノイズ生成手法の開発」については「分野依存語義の同定」はすでにモデルを構築し,実験を行っている.「構文構造に基づく能動・受動変換」については現在モデル作成中で8月中に実験を行う.また,提案した2手法を半教師付き学習の1つであるFixMatchにおける弱データ拡張として用いることにより,マルチラベル文書分類の精度を検証する.これらの実験は10月までに終了させ,11月以降は「大域的なノイズ生成手法,およびデータ拡張法の開発」について実施する.令和5年度実施予定の「構文構造に基づく能動・受動変換」,「提案した2手法をFixMatch(半教師付き学習)による弱データ拡張」と「大域的なノイズ生成手法,およびデータ拡張法の開発」に関する実験は多大な計算量が必要になるため,令和5年度購入予定の計算サーバ(GPU NVIDIA A100)を用いて実施する予定である.
|