2020 Fiscal Year Research-status Report
データの層別に有用な外部情報を視覚的に把握するための統計手法の開発
Project/Area Number |
20K19755
|
Research Institution | Osaka University |
Principal Investigator |
高岸 茉莉子 大阪大学, 基礎工学研究科, 特任助教(常勤) (00842147)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | グラフ / 対応分析 / 視覚化 / クラスタリング |
Outline of Annual Research Achievements |
本研究では離散データに対し,外部情報をうまく用いてデータの特徴を視覚的に把握するの手法開発を行う.本研究では外部情報として性別,国籍などのクラス情報を表すカテゴリカル変量を想定する.外部情報とメイン変量間の関係をグラフとして表現し,その関係が把握できるような分割を考える.また組み合わせ最適化問題との関連付けも行うことで,効率的に解く方法を導出する.まず上記目的を達成する単純な方法として,対象の座標をクラスごとに平均をとり,それを1つの座標点とする方法が考えられる.しかしこの方法ではクラス内の大多数の人が同じ傾向を持つ場合は,その傾向は視覚的にも解釈しやすい場合が多いが,そうでない場合は解釈が難しくなる.例えばクラス内で複数の傾向に等分に分かれている,また同じ傾向を持つ対象の中でも少数派のクラスが含まれている,などの状況は,外部情報ごとの特徴を知る上では有益な情報になりうるが,平均をとる方法では視覚的に解釈することは難しい.そこで本研究では,上記のように外部情報クラス内で複数の異なる傾向がある場合に,外部情報クラスごとに複数のクラスターを抽出し,それら全てを共通の低次元空間上に同時布置することで,少数グループの傾向でも視覚的に把握しやすいようにする.ここでクラスタリングすることは,各クラス内で似た傾向を持つ対象のみに人数を絞った上での,相対的なカテゴリとの関連の強さを見ることを意味する.これにより,例え少人数のみが持つ傾向であっても,関連の強さの情報が保たれ,視覚化結果にも反映されやすくなる.また異なる外部情報クラスのクラスターを全て同じ空間上に布置することで,外部情報として複数の変量を用いることも可能となり,更に異なる外部情報クラス間の関係も視覚的に解釈できる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究ではまずデータが全て離散データの場合に状況を絞り手法を提案した.具体的には,既存手法のCluster CAを,行線形制約を入れつつ複数クラスごとにクラスタリングできるように拡張した.また数値シミュレーションや実データ適用などを通じてその手法の有用性も示し,内容をまとめて論文投稿した.
|
Strategy for Future Research Activity |
現段階では正しいクラスタリングが得られているかなどの,手法の定量的な評価は,数値シミュレーションで実施しただけで,実データを用いては行えない.従って今後はそれを行うためのアプローチや,手法の性質についても検討したいと考えている.またR言語でのパッケージ化も行って配布し,そのパッケージに関する論文を執筆することも検討している.
|
Causes of Carryover |
現段階で論文を投稿している段階だが,査読が大幅に遅れているため次の段階に進みづらい状況にある.2021年度では査読結果を踏まえて次のより手法の性質を検討する段階に進み,学会報告などを通じて議論を進める予定でいる.
|