研究課題/領域番号 |
23K16937
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 岩手大学 |
研究代表者 |
游 梦博 岩手大学, 理工学部, 助教 (00972316)
|
研究期間 (年度) |
2023-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 特徴量選択 / 擬似ラベル / グローバル類似性 / 親和性行列 / 特徴量選択手法 |
研究開始時の研究の概要 |
膨大な量のデータから冗長性を削減し,最も重要な特徴量を選択する技術の重要性が高まっている.これらの特徴量選択技術を開発するために特徴と擬似ラベルの相関関係を掘り下げることが必要不可欠である.申請者はこれまで適応型グラフを考慮した特徴量選択最適化モデルを構築し,反復アルゴリズムの収束性について研究してきた.しかし,これまでの研究では線形回帰を用いて擬似ラベルを求める仮定に留まっており,非線形の近似推定により最適化することには至っていない.本研究では,特徴空間から擬似ラベル空間への変換を非線形回帰により学習させることで,特徴量選択アルゴリズムの収束速度と安定性を向上させることが目的である.
|
研究実績の概要 |
令和5年度において,研究目的の一つである「特徴量選択アルゴリズムの安定性向上」を実現するため,複数の最適化技術の開発を進めた.まず,(1)非線形回帰を導入した特徴量選択アルゴリズムを設計・提案した.従来の特徴量選択手法では,特徴を表す行列データと擬似ラベルの間に線形関係が存在していると仮定し,線形回帰を用いて擬似ラベルを学習していたが,高次元データの量の増加に伴い,データの構造関係もより複雑になることがわかった.そのため,データのさまざまな特徴と擬似ラベル間の変換関係を正確に推定するためには,線形仮定では不十分であることを検証した.ニューラルネットワークを用いて実現した非線形回帰の近似推定を目的関数に導入し,近似推定の結果と擬似ラベルとの誤差を最小化する際に最適解を求めることが可能になった.(2)特徴同士の類似性評価方法を改善するため,類似性を記録するグローバル親和性行列の再構築手法を提案した.すべてのデータ特徴をランダムに分割してグループ化を行い,グループ内部の特徴同士がローカル類似性を表す一方で,グループ間の関連性を評価することで,ローカル類似性を微調整したグローバル類似性をより効率的に最適化するプロセスを構築した.(3)非線形回帰の近似推定に対して目的関数内の4つの未知変数行列を個別に最適化するための反復的な計算式を導出し,ベンチマークとなる8つのデータセットにおいてクラスタリング精度と予測ラベルの正規化相互情報量のふたつの指標で安定性を定量的に評価した.グローバル親和性行列の再構築手法に対して3つのハイパースペクトル画像データセットにおける特徴量選択アルゴリズムの安定性を検証した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
特徴量選択の安定性向上を目指し,新たな目的関数の設計と提案が順調に進んだ.ベンチマークとなるデータセットで,クラスタリング精度と予測ラベルの正規化相互情報量の2つの指標で安定性を定量的に評価し,既存手法を上回ることを検証した.さらに,特徴同士の類似性評価方法を改善するために,類似性を記録するグローバル親和性行列の再構築手法を提案し,3つのハイパースペクトル画像データセットにおける特徴量選択アルゴリズムの安定性評価を進めた.提案手法は,機械学習におけるデータの前処理として実装された.これらの研究成果は,複数の国際会議ワークショップおよび学術論文誌で発表された.また,最終的な研究目的である安定性と収束性のバランスを考慮した特徴量選択手法の設計も進め,既存手法と比較できるようにアルゴリズムの計算複雑度と収束するまでの計算量評価が完了している.
|
今後の研究の推進方策 |
これまでの特徴量選択の目的関数には,非線形回帰を導入したため,2つの最適化問題に分割する必要がある.具体的には,非線形回帰の近似推定を最適化した後,残りの3つの未知変数行列を個別に最適解を求める必要がある.これにより,アルゴリズムの設計段階でネストループ処理が不可欠であり,計算量が増加し,収束速度が既存手法よりも遅くなる結果が得られた.次元数が非常に多いデータセットに応用する際に,最適なハイパーパラメータを見つけるのが困難である.これに対して,安定性と収束性のバランスを考慮した特徴量選択手法が検討・設計中である.提案として,元データの次元数を複数のグループに分割し,グループごとに擬似ラベルの近似推定を求めた後,各グループの最適化結果を組み合わせることで,より早い速度で高次元データセットの特徴量選択を実現することが可能である.また,これまでの特徴量選択手法の応用できるデータセットは行列に整えるデータセットに限られている.点群などの順序のないデータに応用するために,深層学習技術を用いて中間段階の特徴を抽出し,整列したデータとして特徴量選択を適用することができる.これらの提案については,複数のデータセットで検証実験を行い,検証結果に基づいて手法の設計・調整を試行錯誤し開発を進める.最終的には,安定性と収束性のバランスを考慮した特徴量選択手法に関する研究成果を国際会議や国際ジャーナルに投稿する予定である.
|