2017 Fiscal Year Annual Research Report
情報漏洩量と計算量を考慮したランダム推定量の最適性の研究
Project/Area Number |
17J06640
|
Research Institution | The University of Tokyo |
Principal Investigator |
南 賢太郎 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2017-04-26 – 2019-03-31
|
Keywords | 劣モジュラ正則化 / 高次元統計学 / 自由度 / 単調回帰 |
Outline of Annual Research Achievements |
今年度は、計算量制約のもとでの高次元線形モデルの推定量の性質の解析を中心に研究を行った(研究計画(B)に対応)。特に、基本的かつ多くの示唆が得られると考えられる高次元線形モデルに焦点を当て、劣モジュラ正則化と呼ばれる手法群の統計的な性質についての研究を進めた。 本研究ではまず、任意の劣モジュラ正則化に対して、リスクの不偏推定量が統一的な形で表されることを示した。特に、自由度と呼ばれる、リスクの不偏推定量において非自明な項が、劣モジュラ関数の選択によらず同じ計算量(線形オーダー)で高速に計算できる。この成果は、研究報告がIBISML研究会賞ファイナリストに選ばれた。 本研究では次に、劣モジュラ正則化の応用のひとつとして、「有向グラフ上で区分的に単調である」という構造を持つ関数(区分単調関数)の推定問題に取り組んだ。グラフ上で大域的に単調性をみたす関数の推定問題は単調回帰と呼ばれ、統計学で古くから研究されている。しかし、単調性の仮定が区分的にのみ成り立っているとき、単調回帰の手法の非最適性を示すことができる。本研究では、有向グラフによる正則化を考えることで、推定量の計算量、およびリスクの不偏推定量(情報量規準)の計算量の上界を保証しつつ、区分単調関数の推定においてよい性能を達成できることを明らかにした。この成果は2017年9月に行われた統計関連学会連合大会において口頭発表を行い、同大会のコンペティションセッション最優秀報告賞を受賞している。これに加えて、特に一次元の場合は、最適に近いと考えられるリスク上界が達成できることも示した。この成果は2017年11月に行われた第20回情報論的学習理論ワークショップ (IBIS2017) においてポスター発表を行い、学生最優秀プレゼンテーション賞を受賞している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究課題の問題意識は、統計学および機械学習において近年重要な課題となっている「(A) プライバシーの保護」および「(B) 計算量の削減」という二つのテーマについて、「情報漏洩量と統計的リスクのトレードオフ」という観点からの最適性を論じるというものである。よって、当初はそれぞれのサブテーマに基づいて (A)(B) 2つのゴールが設定してあり、今年度は主に (A) の課題に取り組む計画であった。 今年度の研究成果である、劣モジュラ正則化における自由度の公式の導出も、動機としては課題 (B) に属するものである。この成果によって、劣モジュラ正則化というクラスの推定量が、多項式時間性の保証つきでリスクの不偏推定量の計算ができる推定量のクラスを特徴付けていることが明らかになった。さらに、この結果はグラフ上の区分単調関数の推定問題という新しい問題に発展し、それに基づく国内学会での研究発表が2件の受賞につながっている。 進捗状況を「やや遅れている」とした根拠は、研究手法の変更により、当初の目標であった情報漏洩量の観点でのトレードオフの解析には至っていないことである。特に計算量の問題については、調査を進めるにつれ理論計算機科学についての理解が深まり、情報漏洩量という抽象的な観点だけから個々の問題に対する最適な手法にアプローチすることは難しいと判断された。また、理論計算機科学の分野では、「多項式時間かそうでないか」という解析が中心であるのに対し、数理統計における最適性の定義は多項式のオーダーの最適性に基づいている。したがって、双方の分野における最新の成果を単に組み合わせるだけでは、本研究の目的であるトレードオフの解析を実現することはできないと考えられる。その点を踏まえ、当初の研究計画の順序を変更し、まずは計算量と統計的リスクの両方を解析できる具体的な問題を探し、その解析に着手している。
|
Strategy for Future Research Activity |
まず、全体的な方針としては、情報漏洩量や計算量と統計的リスクのトレードオフを明らかにするという目標は保ちつつ、研究計画段階で想定していた「情報理論的な制約に帰着させて解く」という方法には限定せずに、問題ごとによりよい方法を選択して研究を進めるということである。 次年度は、本年度に成果が得られた研究課題 (B) の内容の発展を中心として研究を進めていく。特に、上記の成果を査読付論文誌への報告としてまとめつつ、高次元統計学における計算量と統計的性質についてより踏み込んだ関連性を明らかにしていく。 研究課題 (A) のプライバシー保護制約については、差分プライバシー研究の近年の動向として、主に深層学習における確率的最適化手法の汎化性能の解析への応用が注目されている。特に、本研究の成果として前年度に発表した論文を引用した別の著者らによる研究で、本研究の内容のこの分野への応用が示唆されている。そのような背景を踏まえつつ、可能であれば一年以内に取り組めるサブテーマ設定を行いたい。
|
Research Products
(3 results)