研究課題/領域番号 |
22K12146
|
研究機関 | 山梨大学 |
研究代表者 |
鈴木 良弥 山梨大学, 大学院総合研究部, 教授 (20206551)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 半教師あり学習 / マルチラベル文書分類 / 分野依存語義 / 能動・受動変換 |
研究実績の概要 |
現在実施中の「複数の言語処理タスクを利用したデータ拡張法に基づくマルチラベル文書分類」についての研究の令和4年度の実施予定は「局所的なノイズ生成手法の開発」であり,「分野依存語義の同定」と「構文構造に基づく能動・受動変換手法の提案」を行い,「実験の成果と公開」を行うことであった. 令和4年度はそのうち「分野依存語義の同定」についてYAGO[Fabian Suchanek, etc.]で定義されている分野語義とWordNet3.2の語義文を利用し,Quadruplet loss[Chen'17]により意味が等価であるか否かを学習・判定する実験を行った.予備的な実験のため,サイズの小さいデータを用いて実験を行ったが,YAGOの語義が非常に細かい分類であるにも関わらず分野依存語義の同定が可能であることが実験で確かめられた.また,この結果を利用して意味的に等価と判断された語義の単語をWordNetに掲載されている同義語で置き換えることができた.この後すぐにデータを増やして分野依存語義同定・同義語への置き換えの実験を行う予定である. 「構文構造に基づく能動・受動変換手法」については現在モデルを作成しており,RCV1 datasetを用いた実験を行う準備をしている. 令和4年度に実施した「分野依存語義の同定」と現在開発中の「構文構造に基づく能動・受動変換手法」をFixMatch(半教師付き学習)による弱データ拡張を令和5年度前半に実験を行い,その成果を令和5年度中に国際会議で発表する予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
令和4年度の実施予定は「局所的なノイズ生成手法の開発」であり,「分野依存語義の同定と構文構造に基づく能動・受動変換手法の提案」を行い,「実験の成果と公開」を行うことであった.それに対し,進捗状況はそのうち「分野依存語義の同定」についてYAGO[Fabian Suchanek, etc. 2007]で定義されている分野語義とWordNet3.2の語義文を利用し,Quadruplet loss[Chen2017]により意味が等価であるか否かを学習・判定する実験を行った.「構文構造に基づく能動・受動変換手法」に関する構文構造に基づく能動・受動変換手法については現在モデルを作成しており,令和5年度前半に実験を行い,その成果を公表する予定である.
|
今後の研究の推進方策 |
令和5年度実施予定の「大域的なノイズ生成手法,およびデータ拡張法の開発」は令和4年度実施予定の「局所的なノイズ生成手法の開発」と同時に実施可能であるので,令和5年は両方とも実施する.「局所的なノイズ生成手法の開発」については「分野依存語義の同定」はすでにモデルを構築し,実験を行っている.「構文構造に基づく能動・受動変換」については現在モデル作成中で8月中に実験を行う.また,提案した2手法を半教師付き学習の1つであるFixMatchにおける弱データ拡張として用いることにより,マルチラベル文書分類の精度を検証する.これらの実験は10月までに終了させ,11月以降は「大域的なノイズ生成手法,およびデータ拡張法の開発」について実施する.令和5年度実施予定の「構文構造に基づく能動・受動変換」,「提案した2手法をFixMatch(半教師付き学習)による弱データ拡張」と「大域的なノイズ生成手法,およびデータ拡張法の開発」に関する実験は多大な計算量が必要になるため,令和5年度購入予定の計算サーバ(GPU NVIDIA A100)を用いて実施する予定である.
|
次年度使用額が生じた理由 |
令和4年度は当初の研究予定である「局所的なノイズ生成手法の開発」について実施を行った.特に分野依存語義の同定について実施したが,まず小さなデータで実施したため,最新の開発用PCを購入せずに既存の開発用PCを用いて実施し,一定の成果を得た.令和5年度はより大規模データを用いて実験を行うため,当初購入予定だった開発用PCを購入し実験を行う予定である.また令和5年度に購入するPCを用いて「構文構造に基づく能動・受動変換手法の開発」と大域的なノイズ生成手法の開発に着手する予定である.
|