研究課題/領域番号 |
20K03753
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分12040:応用数学および統計数学関連
|
研究機関 | 政策研究大学院大学 (2021-2023) 公立はこだて未来大学 (2020) |
研究代表者 |
竹之内 高志 政策研究大学院大学, 政策研究科, 教授 (50403340)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 頑健性 / 対照学習 / 影響関数 / 教師なし学習 / 不均衡分類問題 / 弱ラベル / ニューラルネットワーク / ロバスト / γダイバージェンス / 独立成分分析 / 非確率モデル |
研究開始時の研究の概要 |
A: 計算量の効率性の観点から, 非確率モデルを用いて,離散, 連続, およびその他のヘテロな構造を持つデータ(グラフ構造など)に対して, 高精度・高効率に推定・推論を行うことが可能な枠組みを提案し, その性質(精度, 効率等)について理論的な保証を与える. B: Aで提案した枠組みを, データ取得にまつわる様々な状況(ラベル情報の大規模な欠測(PU学習), ノイズに対する頑健性, 不均衡なクラスラベル, マルチタスク対応, few(zero)-shot学習等)に対応可能な形に拡張する.
|
研究実績の概要 |
データから確率モデルのパラメーターを推定する際に, 典型的には尤度最大化基準が用いられるが, 採用するモデルによっては, 「確率である」という制約を満たすための正規化項の計算に大きな計算リソースが必要となることがある. このようなモデルに対し効率的にパラメーターを学習するための方法として, 非正規化モデルを用いた対照学習法がある. 従来の対照学習法は, 正規化された確率モデルを経由せずに推定を行うことが可能であるため計算効率は高い一方で, 分布間距離尺度としてKL-ダイバージェンスを用いているためデータセットに含まれる外れ値ノイズに結果が影響を受けやすいという欠点があった. 本研究では分布間距離尺度として, 頑健な推定結果をもたらすことが知られているγ-ダイバージェンスを適用し, 外れ値ノイズに影響を受けづらい頑健な対照学習法を考案した. 提案した手法に対し理論的な解析を行い, 特定の条件の下で推定量が再下降性(ノイズの大きさが極度に大きくなると推定量への影響が消失する)という好ましい性質を持つことを示した. また, 分布間距離尺度として, β-ダイバージェンスを用いた場合についても考察を行い, 同様の頑健性を持つことを示した. 提案した手法のノイズを含んだデータセットに対する振る舞いを, 様々な状況において数値実験により検証し, 再下降性を含む外れ値ノイズに対する頑健性を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
対照学習において, 正規化された確率モデルを経由せずに推定を行う方法を, 従来も用いられる分布間距離尺度とは異なる距離尺度を用いて拡張し, 外れ値ノイズに対して頑健な手法を考案することができた. また提案した手法の統計的性質を理論, 数値実験を用いて検証し明らかにすることができた.
|
今後の研究の推進方策 |
正規化されていない非確率モデルを用いた頑健な対照学習法に対して, 情報量規準に基づくバイアス補正法を援用することで, 適切なモデルを選択することができるような枠組みを構築する.
|