機械学習によるフェノタイピングにもとづくポリジェニック・環境リスクスコアの開発
Project/Area Number |
21K17846
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | Tohoku University |
Principal Investigator |
永家 聖 東北大学, 東北メディカル・メガバンク機構, 准教授 (00726466)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | フェノタイピング / リスクスコア / コホート / 医療情報 / ポリジェニックリスクスコア / 環境リスクスコア |
Outline of Research at the Start |
個人の疾患発症リスクを予測するポリジェニックリスクスコアや、環境因子を用いた環境ワイドな環境リスクスコアを構築する際に用いるフェノタイプ情報は、カルテ情報から得られていることが多い。しかしながら、カルテに記載されている疾患情報は、診療目的の診断病名であり、研究目的にそのまま利用するのは適切ではない。 そこで本研究では、ルールベースや機械学習によるフェノタイピングにもとづく層別化されたサブグループごとに、ポリジェニックリスクスコアや環境リスクスコアを開発することで、より精緻なリスクスコアを得ることを目的とする。
|
Outline of Annual Research Achievements |
本研究は、2型糖尿病などの循環器疾患を対象にフェノタイピングを行い、ポリジェニックリスクスコアや環境リスクスコアをそれぞれ求め、さらに統合したポリジェニック・ 環境リスクスコアの開発を目的としている。1年目は、株式会社JMDCより提供された特定健診情報・レセプト情報約10万人分のデータを用いて、精緻なフェノタイピングを行った。2年目は、当初ポリジェニックスコアや環境リスクスコアを計算する予定であったが、特定健康診査などの情報をもとに、ヒトの健康状態を表現する3次元の「健康状態空間」を構築することで、その人の健康状態の遷移を把握することができると考えた。この考えをリスクスコアの解釈に加えることでよりよい研究成果につながると考えた。42変数(問診票による検体検査17変数、生活習慣等25変数)、対象者96,093人(男性64,128人、女性31,965人)を用い、PCAとUMAPによる次元削減により健康状態空間を男女別に構築した。クラスタリングアルゴリズムDBSCANによりクラスタ(男性49個、女性36個)を同定し、特徴付けを行った。特徴付けには、検査値を用いた対象疾患のフェノタイピング、レセプトデータの診断名を用いた。そうすることで健康とされる大きなクラスタのなかに、疾患発症前のクラスタや(スーパー)ヘルシーなクラスタが存在することを網羅的に明らかにした。これらクラスタの臨床的意義を付加することで、精緻な健康状態空間が解釈可能となり、さらにリスクスコアを加えることで、健康状態空間のどの遷移が、将来「健康」になるための有効な道筋となるかを検討している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「機械学習によるフェノタイピングにもとづくポリジェニック・環境リスクスコアの開発」を実施するため、表現型を精緻に決定するフェノタイピングの実施を行い、さらには次元削減により得られたクラスタごとの特徴付けを行うなど、おおむね順調に進展している。具体的には、株式会社JMDCより提供された4年間の大規模な健診・レセプトデータのうち、42変数(問診票による検体検査17変数、生活習慣等25変数)、対象者96,093人(男性64,128人、女性31,965人)を用い、PCAとUMAPによる次元削減により健康状態空間を構築した。特に質的変数・量的変数に対応できるPCAを採用し、さらにUMAPの計算処理の高速化を行った。 クラスタリングアルゴリズムDBSCANによりクラスタ(男性49個、女性36個)を同定し、特徴付けを行った。健診データは、対象疾患について、疾患発症前/後なのかをラベルして特徴付けを行った。健康とされる大きなクラスタのなかに、疾患発症前のクラスタや(スーパー)ヘルシーなクラスタが存在することを網羅的に明らかにした。 これらクラスタの臨床的意義を付加することで、精緻な健康状態空間が解釈可能となり、さらにリスクスコアを加えることで、健康状態空間のどの遷移が、将来「健康」になるための有効な道筋となるかを検討している。
|
Strategy for Future Research Activity |
本研究課題の基礎となるフェノタイピングを1年目に実施した。その後、ポリジェニックリスクスコアや環境リスクスコアの計算を計画していた。 一方でヒトの健康状態を3次元で表現する「健康状態空間」を構築することで、そのヒトの健康状態の遷移(過去や未来を含む)を把握することができると考え、 まずはこの「健康状態空間」を定義し、解釈することを優先し研究を推進していた。この「健康状態空間」をより精度よく緻密に調べるため、東北大学東北メディカル・メガバンク機構のコホート調査で得られた大規模な健康調査情報やゲノム情報をどのように「健康状態空間」として表現するのかを検討した。従来の「健康調査情報」だけではなく、「ゲノム情報」を「健康状態空間」として表現することができれば、本研究のよりよい発展につながると期待されるため、「ゲノム情報」からのポリジェニックリスクスコア、「健康調査情報」からの環境リスクスコアの統合を進める。
|
Report
(3 results)
Research Products
(2 results)