Project/Area Number |
20K19755
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | Okayama University (2022-2023) Osaka University (2020-2021) |
Principal Investigator |
高岸 茉莉子 岡山大学, 環境生命自然科学学域, 講師 (00842147)
|
Project Period (FY) |
2020-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | グラフ / 対応分析 / 視覚化 / クラスタリング |
Outline of Research at the Start |
本研究では離散データに対し,外部情報をうまく用いてデータの特徴を視覚的に把握するの手法開発を行う.具体的には,メイン変量(例,商品への購買意欲)と外部情報(性別,世帯など)が与えられた時に,どの外部情報(例:男性)及び外部情報の組み合わせ(例:男性かつ一人暮らし,など)が,メイン変量の特徴づけに有効かを把握できるような手法を開発する.そのために外部情報とメイン変量間の関係をグラフとして表現し,その関係が把握できるような分割を考える.また組み合わせ最適化問題との関連付けも行うことで,効率的に解く方法を導出する.
|
Outline of Annual Research Achievements |
本研究では、データの特徴を視覚的に把握するための手法開発を行っている.この手法では,性別や国籍などのカテゴリカル変量によって表されるクラス情報を外部情報として扱っており,各クラスの中で複数の傾向を抽出することを可能にしている.またそれらを共通の低次元空間上に同時に配置することで,少数グループの傾向も視覚的に把握しやすくしている.具体的には,カテゴリカル変量向けの次元縮約クラスタリング法であるCluster Correspondence Analysisを,外部情報ごとに低次元でクラスタリングできるように拡張した.そのため推定アルゴリズムなどもシンプルなものとなっている.またこの手法は,すでに提案された外部情報と組み合わせるための線形行制約を伴うアプローチとも関連があり,本研究ではその関係性も具体的に示した. 本研究において,最初は全てクラス内の複数の傾向を抽出するための変量も,全てカテゴリカル変量であることを想定していたが,現在は量質混合変量にも対応できるように拡張している.具体的には,本提案手法は質的変量向けの次元縮約クラスタリング法であるCluster CAを拡張したものであるが,それと量的変量向け次元縮約クラスタリング法であるReduced k-meansとの関係を考察し,それをもとに本提案手法を量的変量,さらに量質混合変量にも対応できるように拡張した.またその手法を統計プログラミング言語R上で実装した.さらに高速な計算も可能とするためにRcppで実装している.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
現在までに,カテゴリカル変量のみの場合の手法の推定の高速化と,その手法の量質混合変量への拡張をおこなっている.またそのパッケージに関する論文も現在執筆中である.
|
Strategy for Future Research Activity |
量質混合変量への拡張をおこなったことで,実データ応用範囲が増えたため,例えばマーケティングデータなど,本手法適用が有用と考えるデータへの適用と,その活用方法をまとめた論文を執筆したいと考えている.また現段階では外部変量は事前に固定したものを用いているが,よりメイン変量群が解釈しやすいように分割されるような外部変量を探索するようなアプローチも開発したいと考えている.
|