2022 年度実施状況報告書

ヘルスリテラシーを高め行動変容を促すALD・NAFLD予兆モデルの社会実装試行

研究課題

研究課題/領域番号	22K11211
研究機関	名桜大学
研究代表者	本村純名桜大学, 健康科学部, 上級准教授 (50632999)
研究分担者	奥野恭史京都大学, 医学研究科, 教授 (20283666) 花城和彦名桜大学, 健康科学部, 教授 (20284961) 池松真也沖縄工業高等専門学校, 生物資源工学科, 教授 (40442488) 神谷義人名桜大学, 健康科学部, 助教 (50812830) 砂川昌範名桜大学, 健康科学部, 教授 (70325835) 奥本正名桜大学, 健康科学部, 教授 (70330727) 立津慶幸名桜大学, 公私立大学の部局等, 上級准教授 (70833911) 玉田嘉紀弘前大学, 医学研究科, 教授 (80435495) 島康貴名桜大学, 国際学部, 准教授 (60838556) 内野詠一郎京都大学, 医学研究科, 特定助教 (20820905) 中澤麻衣弘前大学, 医学研究科, 助教 (90971599)
研究期間 (年度)	2022-04-01 – 2027-03-31
キーワード	疫学調査 / 横断調査 / スクリーニング / 機械学習
研究実績の概要	2022年度は、「ビッグデータ解析による精度が高いALD/NAFLD予兆モデル（「Model A」）」の開発のための、疫学調査（横断調査）により収集したデータの解析を試みた。まず、先行研究で明らかにされている脂肪肝の要因となる、質問紙による生活習慣に関するデータ、生理学データ、生化学データ等用いた解析を行い、これらのデータのみでの、アウトカム指標である腹部エコーを予測するためのスクリーニングに関する英文原著論文を執筆し、投稿を行った（査読中）。当該論文は沖縄県民のデータの解析に基づく、非侵襲的スクリーニングスコアリングシステムの開発に関する論文である。したがって、遺伝子データおよび腸内細菌叢データ等を含む安価ではない多項目のデータを用いた、将来のアルコール性または非アルコール性脂肪肝の発症リスクを予兆するための「Model A」ではないが、「Model A」および「Model B」開発につながる解析結果が得られたことより、一定の成果を得たと考える。当初計画していた、機械学習を行うことができるソフトウェアを用いた教師あり学習により、3種の「Model A」の試作を行うことができなかったため、2023年度に行うこととする。そのための課題として、遺伝子データおよび腸内細菌叢データの前処理が挙げられるが、2023年9月までに前処理を行い、同年10月以降に3種の「Model A」を試作し、各モデルで交差検証を行う予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由京都大学大学院医学研究科において、予測モデル開発のための前処理及び解析に関するレクチャーを受け、解析の試行を実際に行い、ビッグデータ解析に必要な知識及び技術に関する概要を把握することができた。具体的には、まず、同大学が有する縦断研究データを用いた、ある疾患の予兆モデル（横断研究データを用いた、予測モデルではない）のプロセスに関する概要の説明を受けた。レクチャーにより、同大学で開発した予兆モデルを本学において効率的かつ正確に試行する際に、具体的な端末機器およびソフトウェアの種類および設定、留意すべき技術的な要点等を確認することができた。また、データの前処理について、コーディングのプロセスの記録を効率的に行い、トレースが可能になる方法を修得することができた。これにより、前処理に問題がある場合、あるいは修正がある場合は、プロセスの記録をトレースし、適切なプロセスに修正することが可能となる。しかしながら、課題として、遺伝子データおよび腸内細菌叢データの前処理が行うことができていないことによる、「Model A」の開発が完了していない点が挙げられる。機械学習用のソフトウェアに投入するためのデータセットに、これらのデータが保存されている、ある形式のファイルより、目的とする疾患に関連する情報のみを抽出するノウハウを獲得することができていないことが当該課題の要因の一つである。したがって、このノウハウを獲得するためのミーティングを2023年8月に本学で開催し、京都大学の研究分担者の協力を得ながら、「Model A」の開発完了を目指す予定である。よって、現在の進捗状況としては、やや遅れているが、今年度で課題をクリアすることができる見通しである。
今後の研究の推進方策	2023年度は、2018年度から2023年までの横断調査により収集したビッグデータを用いて、ALD/NAFLDの要因を独立変数とし、これらの疾患の有無またはハイリスク/ローリスクを従属変数とし、多変量解析、および機械学習を行うことができるソフトウェアを用いた教師あり学習による解析を行う。まず、2022年度で完了できなかった遺伝子データおよび腸内細菌叢データ等を含む安価ではない多項目のデータを用いた、「ビッグデータ解析による精度が高いALD/NAFLD予兆モデル（「Model A」）」の開発を継続して行う。また、「可能な限り安価なコストで収集できるデータのみを用いて、『Model A』に可能な限り近い精度の予兆モデル（「Model B」）」の開発を行う。「Model A」は「Model B」と比べ、関連する多くの項目を用いた解析に基づくモデルになることより、理論上、「Model A」は予兆モデルとして正解率、適合率（陽性反応的中度）、再現率（感度）、F値（トレードオフ関係にある再現率と適合率の調和平均）の評価項目が「Model B」と比べ高いことが予想される。しかし、「Model A」の複数のモデルはビッグデータを用いるため、コストが高く、将来的な社会実装を考えると、日本国内の全自治体、あるいは海外で活用することは現実的ではない。一方、もし低コストの「Model B」が高コストの「Model A」と比べ、正解率、適合率、再現率等の評価項目において同等の高い水準であれば、「Model B」はコストパフォーマンスが高く、社会実装ができる可能性が高いと評価することができる。よって、「Model A」に可能な限り近い精度の「Model B」開発に必要な、安価な項目を厳選し、特徴量として採用しALD/NAFLD予兆モデルのアルゴリズム開発を目指す。
次年度使用額が生じた理由	COVID-19感染症拡大の影響により、移動を伴う国内外の学会への対面での参加が困難であった点、機械学習用のソフトウェアに投入するためのデータセットに、遺伝子データ等のビッグデータが保存されている、ある形式のファイルより、目的とする疾患に関連する情報のみを抽出するノウハウを獲得することができなかった点が、当初予定していた2022年度予算に余剰が生じた主な要因である。さらに、ロシアによるウクライナ侵攻の影響により、電子機器全体の価格の高騰または品不足により、当初予定していた機械学習用端末のスペックの下方修正等による端末購入予算における余剰も発生した。しかし、2023年度以降は、COVID-19感染症等の感染症拡大等の大きな社会変化が発生しない限り、研究分担者との県境を越える移動を伴うミーティング及び研修等を行うことができるため、予算を適切に執行できると考える。具体的には、ある形式のファイルより、目的とする疾患に関連する情報のみを抽出するノウハウを獲得に関するミーティングを2023年8月に本学で開催する予定であり、ビッグデータ解析のスペシャリストである京都大学および弘前大学の研究分担者の旅費として使用する予定である。また、ビッグデータ解析のための人件費等により、予算を適切に執行できると考える。