高次元データを含む不均衡データを用いた回帰問題のためのデータバランシング手法

研究課題

研究課題/領域番号	21K21297
研究種目	研究活動スタート支援
配分区分	基金
審査区分	1001:情報科学、情報工学およびその関連分野
研究機関	京都橘大学
研究代表者	吉川寛樹京都橘大学, 工学部, 助教R (10905350)
研究期間 (年度)	2021-08-30 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	3,120千円 (直接経費: 2,400千円、間接経費: 720千円) 2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	機械学習 / 不均衡データ / データバランシング / 分類問題 / 回帰問題 / 生成モデル / 損失関数 / 敵対的生成ネットワーク / 高次元データ
研究開始時の研究の概要	複雑な機械学習手法のパッケージ化が進んだことにより，実行エラーを伴わない問題が発生しても利用者は気づきにくい．不均衡データを用いた訓練による推定値の偏りはそのような問題の一つである．不均衡データを訓練に用いると本来少数派のデータに対しても多数派と推定しやすい推定器が訓練されることがある．本研究では連続値を推定する回帰問題に対し，一般的には分類問題で用いられるデータバランシングを応用し，推定値が偏る問題の解決を目指す．データバランシングはデータ生成等によりデータの分布の均衡を取る手法である．本研究では深層学習に基づく生成モデルを用いることで時系列や画像等の高次元データに対応した手法を提案する．
研究成果の概要	回帰問題，分類問題，それぞれに対し推定値の不均衡を解消するための手法を提案した．1つ目は時系列データを説明変数とする回帰問題のためのデータバランシング手法である．この手法ではデータセットから抽出した2つのサンプルから，内挿的に時系列データを生成することで新たなサンプルを生成する．性能評価では平均絶対誤差の増加を抑えつつ少数データに対する推定精度を向上させることが可能であることを確認した．2つ目の手法は，条件付き敵対的生成ネットワークを用いた，分類問題のためのデータバランシング手法である．性能評価ではオープンデータセットを用いて評価を行い均衡の取れた推定器の訓練が可能となることを確認した．
研究成果の学術的意義や社会的意義	利用者が気づきにくい不均衡データによる推定値の偏りを軽減する手法を提案し，様々な機械学習との組み合わせ・応用を可能とする点が本研究の社会的意義である．特に近年ではセンシングデバイスの小型化・低価格化が進み，機械学習の科学・医療など様々な分野への応用手法が開発されていることから，今後ますますモバイル・ユビキタス分野において機械学習は利用されることが予想される．そのような応用事例において本研究は大きな役割を果たすと申請者は考える．

報告書

(3件)

2022 実績報告書研究成果報告書 ( PDF )
2021 実施状況報告書

研究成果
(4件)

すべて 2022 2021

すべて学会発表 (4件) (うち国際学会 3件)

[学会発表] Privacy-preserving data augmentation for thermal sensation dataset based on variational autoencoder2022
- 著者名/発表者名
  Hiroki Yoshikawa, Akira Uchiyama, Teruo Higashino
- 学会等名
  The 9th ACM International Conference on Systems for Energy-Efficient Buildings, Cities, and Transportation
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Data Balancing for Thermal Comfort Datasets Using Conditional Wasserstein GAN with a Weighted Loss Function2021
- 著者名/発表者名
  Hiroki Yoshikawa, Akira Uchiyama, Teruo Higashino
- 学会等名
  The 8th ACM International Conference on Systems for Energy-Efficient Buildings, Cities, and Transportation (BuildSys 2021) Workshops
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Time-Series Physiological Data Balancing for Regression2021
- 著者名/発表者名
  Hiroki Yoshikawa, Akira Uchiyama, Teruo Higashino
- 学会等名
  The 2021 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA 2021)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 不均衡データセットを用いた回帰問題における損失関数の検討2021
- 著者名/発表者名
  吉川寛樹, 内山彰, 東野輝夫
- 学会等名
  情報処理学会MBL研究会第99回研究発表会
- 関連する報告書
  2021 実施状況報告書

高次元データを含む不均衡データを用いた回帰問題のためのデータバランシング手法

研究代表者

吉川 寛樹 京都橘大学, 工学部, 助教R (10905350)

3,120千円 (直接経費: 2,400千円、間接経費: 720千円)

報告書

研究成果

[学会発表] Privacy-preserving data augmentation for thermal sensation dataset based on variational autoencoder2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Data Balancing for Thermal Comfort Datasets Using Conditional Wasserstein GAN with a Weighted Loss Function2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Time-Series Physiological Data Balancing for Regression2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 不均衡データセットを用いた回帰問題における損失関数の検討2021

著者名/発表者名

学会等名

関連する報告書

吉川寛樹京都橘大学, 工学部, 助教R (10905350)