2023 Fiscal Year Annual Research Report
Spatio-temporal risk models for Hiroshima and Nagasaki exposures by Fused-lasso
Project/Area Number |
20H04151
|
Allocation Type | Single-year Grants |
Research Institution | Radiation Effects Research Foundation |
Principal Investigator |
山村 麻理子 公益財団法人放射線影響研究所, 統計部, 研究員 (60525343)
|
Co-Investigator(Kenkyū-buntansha) |
柳原 宏和 広島大学, 先進理工系科学研究科(理), 教授 (70342615)
大石 峰暉 東北大学, データ駆動科学・AI教育研究センター, 助教 (00878291)
小田 凌也 広島大学, 先進理工系科学研究科(理), 助教 (10853682)
福井 敬祐 関西大学, 社会安全学部, 准教授 (50760922)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Keywords | 時空間統計解析 / Fused-Lasso / スパース推定 / 情報量規準 |
Outline of Annual Research Achievements |
本研究では,時空間統計解析の統計手法の開発に関する理論的もしくは数学的な研究を行っている.特に時空間統計解析にFused Lassoを用いる統計モデルに着目しており,Fused Lassoを行う上で必要となるスパース推定の研究を本年度は多く進めることができた.その中において,時空間統計解析でよくみられるFused LassoとLassoを含む統計モデルについての重要な研究課題に気づくことができた.また,同じく時空間統計解析でよく見られる地理的加重回帰において,Sparse group Lassoを適用することによる推定の改善を行った.さらにこれらの時空間モデルで必要となる推定アルゴリズムや情報量規準の研究を進め,国内外の論文や学会での発表を活発に行った. 本研究で開発する時空間統計解析は,広島・長崎の原爆放射線被ばくのリスク分析に応用することを考えており,放射線影響研究所が保有する寿命調査のデータを用いることを想定している.寿命調査には人年票ベースと個票ベースのデータが存在し,研究当初はこの双方を用いることを念頭に置いていた.これらのデータの使用準備を進めるにあたり,個票ベースのデータについては,研究代表者個人の努力では越えられない状況があり,使用は不可能であると判断した.よって,個票ベースのデータの使用は行わないこととし,人年票ベースの寿命調査の使用のみで,時空間統計解析の研究を進めることとした.具体的には,個票ベースのデータで必要であった生存時間分析による時空間統計解析の統計手法の開発を取りやめ,人年票ベースで必要なロジスティック回帰分析やポアソン回帰分析に関する研究に絞った.やめた生存時間分析は,一般化線形モデルの枠組みにおいてロジスティック回帰分析やポアソン回帰分析と同等に扱えることから,本研究の理論的な研究面において全く支障はない.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究では時空間統計解析において,広島・長崎の原爆放射線被ばくのリスクを時間や空間で把握できる統計モデルの開発を行っており,統計モデルを組み立てるための数理統計学の分野での研究を行っている.また,作成した統計モデルを応用する際に必要となる,データの作成(特に空間データの作成),推定の際に必要となる追加の統計手法,推定方法の提案,プログラミングの研究も合わせて行い,データサイエンスにおけるデータ分析の総合的な技術開発に貢献している.統計モデルの開発としては,時空間統計解析にてFused Lassoを使用する上で必要となるスパース推定に関する研究を重ねており,必要な研究課題に取り組み,国内外の論文や学会などの研究集会で発表することで研究成果を上げている.Fused Lassoなどスパース推定を用いた時空間統計解析は,大変よく使用されるようになってはいるものの,その歴史は浅く,研究課題が当初の研究計画以上に見つかり,研究がよい調子で進展している.データの作成については,地理データの作成にGIS(地理情報システム)分野のスキルが必要であり,これらの基礎的かつ本研究に必要なスキルは本年度までに習得することができた.追加の統計手法は主に情報量規準である.赤池情報量規準に代表されるように我国で研究開発が進んでおり,整った研究環境をもつ統計数理研究所で情報交換を行い研究は順調に進んでいる.また,このことで我国の情報量規準の研究水準をさらに高めることへ貢献したいと考える.推定方法については,推定アルゴリズムや最適化問題の研究を行い,本研究で扱った推定モデルに反映させ,プログラムを作成しGithubに公開した.プログラミングについては,推定モデルごとにRやPythonによるプログラムを完成させ,GIS分野の技術を習得し研究結果を示している.
|
Strategy for Future Research Activity |
本年度まで進めてきた時空間統計解析モデルの開発において,重要な研究課題が見つかっており,これらの研究を進める.研究成果は,時空間統計解析に関する研究を扱う統計学やデータサイエンス,および地理情報システム(GIS)の学会や学術雑誌で発表する.また,これまでに積み上げてきた研究スキルを活かし,人年票ベースの寿命調査を用いた過剰相対リスクや過剰絶対リスクにまつわる時空間統計解析モデルを作成する.双方のリスクの分析モデルは,非線形のリンク関数を持つポアソン分布の統計モデルであり,放射線被ばくの影響分析に適している.ただし,モデル内において,説明変数が非常に複雑に幾重にも加えられており,分析結果の解釈が分かりにくく,説明変数の利用に柔軟性がない側面も併せ持っている.データが更新される度に型どおりの分析を行い,放射線の影響の変化を示すだけならば現行のモデルでよい.しかし,データから異なった情報を得るには,モデルの開発を試みたいところである.そこで本研究では,これらのリスクの分析モデルに対し,時空間統計解析への拡張を行うと共に,柔軟に説明変数を用いた分析を行うことをめざす.また,寿命調査データについては,本研究結果の報告を交えて研究会などで紹介し,我国のみが保有する人体の放射線被ばくデータの存在やその歴史,およびデータ倫理の現状について,個人情報の保有に関するデータリテラシーが今後益々必要となるデータサイエンスや統計科学において共有すべき知識として伝えたい.これらの開発したモデルに必要となる情報量規準の研究も引き続き行う.情報量規準はデータ分析で重宝される統計手法であることから,専門家からの意見を伺いつつ分野の発展に貢献したい.また,モデルに適した推定を行うためのアルゴリズムや最適化問題,およびプログラミングについては,継続的にスキルを取得し研究に反映させる.
|
Research Products
(28 results)