Clarification of Minimax Optimality in Fair Regression under Demographic Parity

Research Project

Project/Area Number	23K13011
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 12040:Applied mathematics and statistics-related
Research Institution	University of Tsukuba
Principal Investigator	福地一斗筑波大学, システム情報系, 助教 (30838090)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords	公平性 / demographic parity / minimax最適 / minimax最適性
Outline of Research at the Start	本研究では，機械学習によってもたらされる差別の可能性を排除するために，公平な学習の問題を取り扱う．特に，この問題に対する最も良い学習アルゴリズムとして公平でminimax最適な学習アルゴリズムの解明を目指す．特に，複雑なバイアスが生じる状況において公平性の問題の難しさを明らかにすることを目指す．公平性の社会的需要が高まっている中で，minimax 最適性を解明することで学習アルゴリズムの合理性を担保することが可能になる．
Outline of Annual Research Achievements	機械学習アルゴリズムによって構築された予測モデルが性別や人種などのセンシティブな属性によって出力を変えるような差別的な振る舞いをすることが指摘されてきている．それを解決するために，センシティブ属性によるバイアスを排除する機構を組み込んだ公平な学習アルゴリズムが開発されてきた．それらのアルゴリズムによって差別の排除の実現は可能であるが，効率的に与えられたサンプルを活用できているか解明されておらず，差別の排除をしつつより高い精度の予測を行える可能性があった．本研究では，最も予測精度の高い公平な学習アルゴリズムの開発を行い，その最適性を数理的に検証する．特に，demographic parityと呼ばれる公平性定義を保証する学習問題に対して最悪ケース誤差が最も小さい学習アルゴリズムの解明を行なった．既存の研究では，従属変数にセンシティブ属性に依存した項が存在し，それのみによってバイアスが発生するデータ生成分布のモデルにおける最適な予測精度の解明が行われていた．このモデルは従属変数の平均がセンシティブ属性に依存して変わる状況を捉えることが可能であったが，分散などの公示モーメントが変化する状況は対応していなかった．本研究では，従属変数の分散がセンシティブ属性に依存し，かつ，独立変数の平均もセンシティブ属性に依存するようなデータ生成分布のモデルにおける最適なアルゴリズムを解明した．既存の理論では最適な予測精度は公平性を要求しない一般的な回帰問題と変わりなかったが，今回の解析ではセンシティブ属性による分散が異なるほど公平性を達成することが難しく，最適な予測精度も上昇することがわかった．これにより，一般的な回帰問題とは異なる公平性の問題特有の難しさの解明を行った．この研究の成果は機械学習のtop tierの会議であるNeurIPS2023に採択された．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 今年度は線形なデータ生成分布のモデルを仮定した上での最適な公平性を保証した学習アルゴリズムの構築する予定であった．この目標はある程度達成でき，その成果がNeurIPS2023の論文として採択された．よって，現状概ね順調に進展していると考える．
Strategy for Future Research Activity	今後はこれまでの理論をもとに，データ生成分布のモデルにおいて，独立変数と従属変数間の関係が非線形であったり，センシティブ属性と従属変数間の関係が複雑である場合における最適な公平性を保証したアルゴリズムの構築を行う．現状の解析で行えている，データ自身に含まれているバイアスの解析を非線形な関係に展開することはそこまで大きな課題もなく達成可能であると考えている．一方，アルゴリズム自身がバイアスを発生させる現象の解析が現状はできていない．この現象の解析も含めて進めていきたいと考えている．