2023 Fiscal Year Research-status Report
データの層別に有用な外部情報を視覚的に把握するための統計手法の開発
Project/Area Number |
20K19755
|
Research Institution | Okayama University |
Principal Investigator |
高岸 茉莉子 岡山大学, 環境生命自然科学学域, 講師 (00842147)
|
Project Period (FY) |
2020-04-01 – 2026-03-31
|
Keywords | グラフ / 対応分析 / 視覚化 / クラスタリング |
Outline of Annual Research Achievements |
本研究では、データの特徴を視覚的に把握するための手法開発を行っている.この手法では,性別や国籍などのカテゴリカル変量によって表されるクラス情報を外部情報として扱っており,各クラスの中で複数の傾向を抽出することを可能にしている.またそれらを共通の低次元空間上に同時に配置することで,少数グループの傾向も視覚的に把握しやすくしている.具体的には,カテゴリカル変量向けの次元縮約クラスタリング法であるCluster Correspondence Analysisを,外部情報ごとに低次元でクラスタリングできるように拡張した.そのため推定アルゴリズムなどもシンプルなものとなっている.またこの手法は,すでに提案された外部情報と組み合わせるための線形行制約を伴うアプローチとも関連があり,本研究ではその関係性も具体的に示した. 本研究において,最初は全てクラス内の複数の傾向を抽出するための変量も,全てカテゴリカル変量であることを想定していたが,現在は量質混合変量にも対応できるように拡張している.具体的には,本提案手法は質的変量向けの次元縮約クラスタリング法であるCluster CAを拡張したものであるが,それと量的変量向け次元縮約クラスタリング法であるReduced k-meansとの関係を考察し,それをもとに本提案手法を量的変量,さらに量質混合変量にも対応できるように拡張した.またその手法を統計プログラミング言語R上で実装した.さらに高速な計算も可能とするためにRcppで実装している.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
現在までに,カテゴリカル変量のみの場合の手法の推定の高速化と,その手法の量質混合変量への拡張をおこなっている.またそのパッケージに関する論文も現在執筆中である.
|
Strategy for Future Research Activity |
量質混合変量への拡張をおこなったことで,実データ応用範囲が増えたため,例えばマーケティングデータなど,本手法適用が有用と考えるデータへの適用と,その活用方法をまとめた論文を執筆したいと考えている.また現段階では外部変量は事前に固定したものを用いているが,よりメイン変量群が解釈しやすいように分割されるような外部変量を探索するようなアプローチも開発したいと考えている.
|
Causes of Carryover |
今年度は出産により研究活動の継続が困難であったため,次年度以降への繰り越しをおこなった.育児休暇明け以降は,量質混合変量への拡張とその実データへの応用を完成させ,研究内容の学会発表と,論文投稿を目指す.
|