A Study on Exact Optimal Solutions for Subgroup Identification Based on Discrete Structure Processing
Project/Area Number |
23K11023
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
水田 正弘 統計数理研究所, 大学統計教員育成センター, 特任教授 (70174026)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 個別化医療 / 列挙 / シンボリックデータ解析 / 目的関数 |
Outline of Research at the Start |
特定の属性(年齢、性別、症状等)を持つ人に有効な治療法を統計的に検討する方法として、サブグループ解析が研究されている。例えば、ある治療法が「50歳以上で禁酒をしている人に対する効果が高い」との主張が発表されることがある。すなわち、そのグループでは、治療を受けた人と受けない人との効果の差が、その他のグループより大きいことを意味する。 本研究課題では、そのようなグループを検出することを目的とする。その際、従来の手法とは異なり、厳密な意味で最適なグループ同定を目指す。単純なアルゴリズムでは計算時間があまりにも大きくなるので、アルゴリズムおよび妥当な制約条件を考慮することで実用的な手法を開発する。
|
Outline of Annual Research Achievements |
特定の属性(年齢、性別、症状など)を持つ人に有効な治療法も多い。それを統計的に検討する方法として、サブグループ解析が研究されている。例えば、ある治療法が「50歳以上で禁酒をしている人に対する効果が高い」との主張が発表されることがある。「50歳以上で禁酒をしている」という属性を有するグループにおいて、治療を受けた人の、受けない人に対する効果(Treatment effect)の差が、その属性を有しないグループにおける効果の差と比べて高いとの主張である。このこと自体は、差の検定やGLM、LASSOなどで調整した効果の差として、統計的な検定やベイズ的アプローチにより評価できる。しかし、本当に、55歳以上ではなく50歳以上が適切なのか、さらには、喫煙の有無、血圧の数値は考慮しなくてもよいのかとの疑問が生じる。すなわち、本当に治療の効果が高いグループを同定することが課題となる。サブグループ同定法として、多くの手法が提案されている。それらの手法により、治療の効果が比較的大きなグループの検出はできるが、効果が最大、すなわち最適なサブグループが検出されるとの保証はない。その原因は、候補となるサブグループの個数が非常に大きいために近似最適化手法となっていることにある。以上の背景により、本研究課題は、厳密な意味で最適なサブグループを同定する方法の実現を目的としている。 これらの課題に対して、サブグループの列挙のアルゴリズムの開発、サブグループ同定の理論構築、実データに適用するための制約条件の検討を実施した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「サブグループ」の族の条件を定義することで、その条件を満たす全てのサブグループを列挙するアルゴリズムおよびソフトウェアを開発した。 サブグループ解析およびサブグループ同定法は、解析対象がコンセプトであると解釈できる。そこで、シンボリックデータ解析(Symbolic Data Analysis)の立場から理論構築した。 対象の属性が、p変量で記述されている場合、各変量の値を、現実的な範囲で「丸める」ことが考えられる。例えば、年齢であれば、5歳刻み(または10歳刻み)で検討しても、最終的な結論に違和感がない場合が多い。そこで、各変量の取りうる値の個数を制約することで、サブグループの列挙の個数を削減できるとともに、サンプルサイズnの計算時間に関する影響を最小限にできる。適切な離散化が可能であれば、大規模データに対しても、最適な部分集団を検出することができる。
|
Strategy for Future Research Activity |
実データにおけるサブグループ解析、サブグループ同定に寄与するために、さらなるアルゴリズムの改良を検討する。また、サブグループ同定の既存の手法に対して、本研究成果で得られた結果を比較する。これにより、既存手法の評価を実施する。 サブグループ解析は、個別化医療のためにも重要な技法である。半面、統計的な判断の実施において、サブグループの扱いは慎重にすべきである。適切なサブグループ同定や解析の実施のために引き続き研究を推進する。
|
Report
(1 results)
Research Products
(6 results)