汎化性能向上に資する大規模データセット構築のためのサンプル選択手法に関する研究

研究課題

研究課題/領域番号	19K12034
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	渡辺顕司国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50571064)
研究期間 (年度)	2019-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2021年度: 260千円 (直接経費: 200千円、間接経費: 60千円) 2020年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2019年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
キーワード	多変量解析 / 因子分解 / パターン認識 / 機械学習
研究開始時の研究の概要	本研究では、汎化性の意味で識別性能等を向上させられる学習用大規模データセットの構築に資するため、学習用データセット構築をサンプル選択の問題と捉え、特徴空間上のサンプル分布に関する幾何的考察から新たな数理的手法を提案するとともに、この提案手法を用いて既存データセットの再構築を行うことで、所望の性能が得られることを実験的に示す。
研究成果の概要	近年、AIという呼称の元、機械学習手法が様々な分野で利用されるようになり、汎化性の意味における分類・識別性能向上に大きな関心が集まるようになった。この問題を解決するには、爆発的に増加し続ける収集データ量の適切な削減にも資する、学習データの取捨選択、すなわちサンプル選択を行うことが有効な対応の一つである。そこで本研究では、入力データの統計的性質を踏まえた再生成データの構築と、これら入力データと再生性データの誤差基準などから、大多数のデータが示す基準値から大きく外れる、すなわち例外となるデータを検出・削除するために、特に因子分解手法に着目した検討を実施した。
研究成果の学術的意義や社会的意義	本研究で着目した因子分解手法は古典的な多変量解析手法の一つであり、昨今の隆盛を極める深層学習手法を検討対象とすることをあえて避けたのは、一定の理論的基準と確信を持って、汎化性能の向上に臨めるからである。これは、現在の学術・商用を問わず一定の性能が望めるという一点のみで、「なぜ、所望の性能を達成できたのか？」という理論的解析が困難な深層学習手法を軽々と利用する風潮に一石を投じる意味で学術的・社会的意義のある研究であるものと考える。

報告書

(5件)

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 時系列信号解析のための因子分解法の検討2022
- 著者名/発表者名
  渡辺顕司
- 学会等名
  福岡大学数理情報学セミナー
- 関連する報告書
  2022 実績報告書