2021 Fiscal Year Research-status Report
高次元データを含む不均衡データを用いた回帰問題のためのデータバランシング手法
Project/Area Number |
21K21297
|
Research Institution | Kyoto Tachibana University |
Principal Investigator |
吉川 寛樹 京都橘大学, 工学部, 助教R (10905350)
|
Project Period (FY) |
2021-08-30 – 2023-03-31
|
Keywords | 機械学習 / 回帰問題 / 分類問題 / データバランシング / 敵対的生成ネットワーク |
Outline of Annual Research Achievements |
本研究では不均衡データを機械学習の回帰問題における推定器の訓練に利用することを目的としている.この目的達成に向けて,2021年度は,回帰問題,分類問題,それぞれに対し2通りのアプローチを用いて推定値の不均衡を解消するための手法をそれぞれ提案した.1つ目は時系列データを説明変数とする回帰問題のためのデータバランシング手法である.この手法ではデータセットから抽出した2つのサンプルから,内挿的に時系列データを生成することで新たなサンプルを生成する.生体情報を収集した2つの異なるデータセットを用いた性能評価では,提案手法により生成されたデータセットを用いて推定器を訓練し,目的変数の推定を行なった.この評価実験から,提案手法により生成されたデータセットを用いることで,平均絶対誤差の増加を抑えつつ少数データに対する推定精度を向上させることが可能であることを確認した.2つ目の手法は,条件付き敵対的生成ネットワーク(cGAN)を用いた,分類問題のためのデータバランシング手法である.こちらの手法では,不均衡なデータセットを用いて訓練した生成モデルから生成されるデータの偏りの解消を目的としている.性能評価では,3つのオープンデータセットを含む4つのデータセットに対し手法を適用することで評価を行い,訓練時にデータセットに含まれるデータの分布を元に損失関数の出力に重みを与えることで,均衡の取れた推定器の訓練が可能となることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実施計画では,2021年度は回帰問題のためのデータバランシング手法を構築し,オープンデータセット等の研究用に公開されたデータを用いて有効性を評価する予定であった.この計画に対し,本年度は回帰問題のための内挿的なデータ生成手法と,敵対的生成ネットワークを用いた分類問題のためのデータバランシング手法を構築することで2つのアプローチにより課題の解決に取り組んだ.それらの手法については,オープンデータセットを含む深部体温や温冷感を目的変数とする複数の生体情報が含まれるデータセットに対して,評価を行うことで正確に 人工データの生成が可能となることを確認した.これらの成果は国際学会などでも発表しており,おおむね順調に進展しているものと判断する.
|
Strategy for Future Research Activity |
最終年度は条件付き敵対的生成ネットワークを用いた回帰問題のためのデータバランシング手法の構築に取り組む予定である.前年度までに回帰問題のための内装的なデータ生成手法を構築し,評価のためのデータセットの確保やフレームワークの構築を完了している.また,分類問題に対して条件付き敵対的生成ネットワークを用いたデータバランシング手法も構築済みである.それらを活用することで,高次元データを説明変数に持つ回帰問題のためのデータバランシング手法を実現し,最終的な研究成果を国際会議や論文誌などで発表する予定である.
|
Causes of Carryover |
出張予定であった国際会議にオンラインで出席することとなり,旅費の支出が見込みより小さくなった.次年度使用となった予算は,さらに研究を進めることにより新たな研究成果を国際会議等で発表する際の旅費や,学術雑誌への論文投稿費用として支出する予定である.
|