2018 Fiscal Year Research-status Report
高次元データの理解のための最適なスケーリングと可視化技法
Project/Area Number |
17K00044
|
Research Institution | The University of Tokyo |
Principal Investigator |
清 智也 東京大学, 大学院情報理工学系研究科, 准教授 (20401242)
|
Co-Investigator(Kenkyū-buntansha) |
田中 潮 大阪府立大学, 理学(系)研究科(研究院), 助教 (60516897)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 行列のスケーリング / 可視化 / Textile plot / 多変量データ / コピュラ |
Outline of Annual Research Achievements |
研究代表者の清が中心となって、昨年度に引き続き多次元確率分布のスケーリング問題に取り組んだ。関連する主な成果は以下の3つである。1つ目は総合指数の計算法である。複数の項目に基づき合否を決定するような問題を考える。このとき各項目ごとに合格者と不合格者の平均の差を見ると、逆転現象を起こすことがある。本研究ではそのような不合理を避ける(あるいは軽減する)アルゴリズムを提案した。2つ目に、コピュラモデルの推定問題を考察した。コピュラとは多変量データにおける従属性を記述するための道具の一つであり、その推定問題は強い関心が持たれている。本研究ではそのようなモデルに対する自然な評価指標を導出した。3つ目は、不均衡な判別問題におけるモデルの極限の考察である。そこでは極値理論における知見が役立ち、本研究では特に最大値安定分布と不均衡極限の関係について議論した。いずれの研究成果も国内外の学会にて発表し、論文としてまとめている状況である。 また研究分担者の田中を中心に、Textile plot及びそれを数学的に定式化したTextile setの構造に対して、これを幾何学的に特徴付ける研究に取り組んだ。先行研究において、行列の集合として定義されるTextile setが可微分多様体になるための十分条件を得た。これの接空間を調べることは自然な問題である。実際、この問題は、古典群のLie環を求めることに対応している。しかしながら、Textile setは単位行列を含まず積演算に関して閉じていないため、古典群のLie環に対する考察とは異なる手法が求められた。Textile setの接空間の導出に加え、この接空間が、Textile plotを通してデータサイエンスにおいて何を示唆しているか、これを解釈することも試みた。その一部の内容は次年度の国際学会において発表する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の主目的は高次元データの可視化技法の確立であった。現在までの研究により、この研究目的を遂行する上で大事なのは多次元データの座標ごとの変数変換(スケーリング)であることが明らかになった。この知見をベースとした可視化技法、総合指数の決定法、コピュラモデル、不均衡データ、Textile set に関する研究が進展した。
|
Strategy for Future Research Activity |
これまでの研究成果においてまだ明らかになっていない点を引き続き調査・検討する。具体的には、合否決定アルゴリズムの理論的裏付け、コピュラモデルの漸近有効推定量の構成、不均衡データに対する漸近最適な予測量の構成、ならびにTextile set の幾何学的側面の解明が挙げられる。これらの研究課題を遂行するにあたり、コピュラ理論や極値理論はもとより最適輸送理論や機械学習の分野の研究者とも交流を図る。また成果を学術論文としてまとめるとともに、国内外の学会において研究発表をする。さらに非線形スケーリングに基づくデータ可視化ソフトウェアを試作する。
|
Causes of Carryover |
研究代表者の清については、2019年度に参加する国際会議(GSI2019)の参加に必要な金額を残している。 分担者の田中については、適切な研究費利用の結果、少額を繰り越す形となっている。
|