2022 Fiscal Year Research-status Report
データの層別に有用な外部情報を視覚的に把握するための統計手法の開発
Project/Area Number |
20K19755
|
Research Institution | Okayama University |
Principal Investigator |
高岸 茉莉子 岡山大学, 環境生命科学学域, 講師 (00842147)
|
Project Period (FY) |
2020-04-01 – 2026-03-31
|
Keywords | グラフ / 対応分析 / 視覚化 / クラスタリング |
Outline of Annual Research Achievements |
本研究では、データの特徴を視覚的に把握するための手法開発を行っている.この手法では,外部情報をうまく活用することを目指しており,性別や国籍などのカテゴリカル変数によって表されるクラス情報を外部情報として扱っている.例えばマーケティング調査データを用いて顧客のターゲティングを行う場合,「男性は商品Aを、若者は商品Bを購入しやすい傾向にある」といったように,外部情報に基づいて対象をクラス分けし,メイン変数の解釈を行う場面でこの手法を適用することを想定している.特に、本手法では外部情報の各クラス内に複数の傾向が存在する場合にも対応するため,各外部情報クラスごとに複数のクラスターを抽出し,それらを共通の低次元空間上に同時に配置することで,少数グループの傾向も視覚的に把握しやすくしている.本研究でここまで提案してきた手法は,全て質的変数を想定していたが,22年度では量的変数と質的変数の組み合わせにも対応できるように拡張した.具体的には,本提案手法は質的変量向けの次元縮約クラスタリング法であるCluster CAを拡張したものであるが,それと量的変量向け次元縮約クラスタリング法であるReduced k-meansとの関係を考察し,それをもとに本提案手法を量的変量,さらに量質混合変量にも対応できるように拡張した.更にその量質混合の提案手法を実行するためのソフトウェアを実装した.また本手法はプログラム上での実行時間が非常に長かったため,それの高速化も試みた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
22年度では,既に提案した手法を量質混合に対応できるように拡張し,それをRで使用できるようにするためのRパッケージを開発している.また以前に提案した手法においても,Rを用いた場合に実行時間が非常に長かったが,Rcppを利用して高速化も行った.ただしここでの手法の拡張は,既に提案した手法の実践場面の活用範囲を大幅に広げたものの,数理的にはシンプルな拡張にとどまっている.
|
Strategy for Future Research Activity |
量質混合も含めたRの実装を済ませ,様々な実データに適用し,その適用例も含めたRパッケージに関する論文の執筆をしたいと考えている.また現段階では外部変量は事前に固定したものを用いているが,よりメイン変量群が解釈しやすいように分割されるような外部変量を探索するようなアプローチも開発したいと考えている.
|
Causes of Carryover |
22年度は研究代表者が所属変更し,講義の数が大幅に増えたことで研究が滞ってしまったことが理由として挙げられる.次年度は,論文執筆を目指すためそのための英文校閲費,また様々な実践場面での応用も行い学会発表に使用したいと考えている.
|