多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発

Research Project

Project/Area Number	20K10336
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 58010:Medical management and medical sociology-related
Research Institution	Kawasaki University of Medical Welfare
Principal Investigator	片岡浩巳川崎医療福祉大学, 医療技術学部, 教授 (80398049)
Co-Investigator(Kenkyū-buntansha)	畠山豊高知大学, 教育研究部医療学系連携医学部門, 教授 (00376956) 中原貴子川崎医療福祉大学, 医療技術学部, 講師 (30462047) 奥原義保高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473) 桑原篤憲川崎医科大学, 医学部, 教授 (50368627) 竹下享典埼玉医科大学, 医学部, 教授 (70444403) 久原太助高知大学, 医学部附属病院, 臨床検査技師 (80457407) 三上史哲香川大学, 医学部附属病院, 講師 (80550392)
Project Period (FY)	2020-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000) Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2020: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Keywords	疑似ビッグデータ生成 / 多次元データモデル / 分布の正規化 / 疑似ビッグデータ / 秘密分散 / 医療ビッグデータ / プライバシー保護データマイニング / データサイエンティスト / ビッグデータ / 人材育成
Outline of Research at the Start	本研究は、膨大なリアルデータから算出したモデル（多次元特徴地図）から逆変換した疑似ビックデータを作成し、医学領域に特化したデータサイエンティストの育成のための演習用データベース教材を作成することを目的とする。リアルデータから生成したモデルを逆変換することで、作成された疑似ビッグデータはリアルデータに極めて近いデータセットとなり、教育に利用することができるだけでなく、生成した多次元モデルを知識発見研究にも利用することが可能である。本研究の最終目標は、生成したモデルと逆変換データを利用することの有用性とその限界を明らかにすることである。
Outline of Annual Research Achievements	本研究は、日常診療から得られた膨大なデータを元に、多次元モデルを作成し、この多次元モデルから逆変換した疑似ビッグデータを作成し、医学領域のデータサイエンス教育に利用可能な演習用データベースを構築することを目的とする。本研究の課題として、①リアルデータの情報収集基盤の構築、②多次元モデル生成のためのプログラム開発、③多次元モデルからの疑似データ作成の3つがある。これまでの研究期間中に①から③までの課題を解くためのプロトタイプのプログラム開発を行ってきた。この中で解決しなければならない課題として、A.欠損値の課題、B.多様な分布型に対するモデル化の課題、C.多次元モデル構築計算の高速化の課題が挙げられた。 A.欠損値の課題については、直近前回値の採用と、検査項目間相関マトリクスを用いることで解決した。B.多様な分布型に対するモデル化の課題に関しては、変換原点を加味したべき乗変換による正規分布への変換により解決することができ、論文投稿が完了している。C.多次元モデル構築計算の高速化の課題に関しては、多次元モデル構築の中心的な処理となる自己組織化マップの高速化が課題となった。大規模なデータセットを用いたクラスタリングを行うには、大規模な競合層が必要であり、演算量も爆発的に増えるため、大規模データのモデル構築に耐えうるアルゴリズムを実装したプログラム開発と演算の高速化が必要であった。次年度は、大規模なデータセットを対象としたモデル構築を行い、再検証を実施し、論文としてまとめる予定である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 令和５年度は、「多様な分布型に対するモデル化の課題」の中で、データの正規分布変換のための成果を論文にまとめ、「Critical appraisal of two Box-Cox formulae for their utility in determining reference intervals by realistic simulation and extensive real-world data analyses」として論文発表を行った。一般的に実施されている臨床検査項目では、ほぼすべての正規分布変換が可能であることが証明され、変換スクリプトの公開もサプリメントとして実施している。一方で、ある特定の遺伝子発現量の領域では、分布系が指数減衰的な形式となるため、変換原点付きのべき乗変換方式のみでは対応が困難な場合があることがわかった。遺伝子発現量等の特殊な項目に関しては、別のアルゴリズムを用いて正規化を行う方法を考える必要がある。「欠損値の課題」に対しては、検査項目間の相関マトリクスデータベースを単項目頃のペアで計算した結果を準備した。さらに、次年度は、疾患別の相関マトリクスに関しても準備する予定である。「疑似データの生成のためのプログラム開発」に関しては、プ多変量正規分布生成アルゴリズムと自己組織化マップの中間層の各ニューロンの平均、分散と相関係数を用いて生成した後、分布型の逆変換を行って元のデータを生成する方法のプロトタイプが開発できたため、評価とアルゴリズムの改良を行う予定である。研究の進捗に関して、現在、小規模データを対象とした評価にとどまっているため、大規模データに耐え、かつ、高精度な疑似データを作成可能なプログラムの改良が必要であるため、1年延長し、やや遅れていると報告した。
Strategy for Future Research Activity	一連のプログラム開発に必要なアルゴリズムの確認と疑似データ生成のための再現精度の検証が完了したため、作成したプロトタイププログラムを改良し、大規模データに適用可能なプログラムを作成する。また、さらなる再現精度の向上を目指して、疾患群分類毎に複数のモデルの作成を目指す。繰越となった費用は、研究成果の学会報告ならびに、関連施設での打ち合わせに利用する予定である。

Report

(4 results)

Research Products
(6 results)

All 2023 2021 2020

All Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 1 results, Open Access: 1 results) Presentation (4 results) (of which Invited: 1 results)

[Journal Article] Critical appraisal of two Box-Cox formulae for their utility in determining reference intervals by realistic simulation and extensive real-world data analyses2023
- Author(s)
  Ichihara Kiyoshi、Yamashita Teppei、Kataoka Hiromi、Sato Shoichi
- Journal Title
  
  Computer Methods and Programs in Biomedicine
  
  Volume: 242 Pages: 107820-107820
- DOI
  10.1016/j.cmpb.2023.107820
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] 医療ビッグデータの活用　医療ビッグデータ解析法2020
- Author(s)
  片岡　浩巳
- Journal Title
  
  臨床検査
  
  Volume: 64(5) Pages: 592-599
- Related Report
  2020 Research-status Report
[Presentation] 臨床検査データを用いた診断支援の試みとその課題2021
- Author(s)
  片岡浩巳
- Organizer
  令和2年度大学病院情報マネジメント部門連絡会議
- Related Report
  2020 Research-status Report
- Invited
[Presentation] 臨床検査の数値情報を対象とした機械学習適用の課題2020
- Author(s)
  片岡浩巳
- Organizer
  第67回日本臨床検査医学会学術集会
- Related Report
  2020 Research-status Report
[Presentation] 機械学習の活用による検査サービス向上を目指したアプローチ2020
- Author(s)
  片岡浩巳
- Organizer
  第67回日本臨床検査医学会学術集会
- Related Report
  2020 Research-status Report
[Presentation] 自動血球計数装置がもつビッグデータからの新知見発掘2020
- Author(s)
  片岡浩巳
- Organizer
  第５３回日本医療検査科学会
- Related Report
  2020 Research-status Report

多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発

Principal Investigator

片岡 浩巳 川崎医療福祉大学, 医療技術学部, 教授 (80398049)

¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Critical appraisal of two Box-Cox formulae for their utility in determining reference intervals by realistic simulation and extensive real-world data analyses2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] 医療ビッグデータの活用 医療ビッグデータ解析法2020

Author(s)

Journal Title

Related Report

[Presentation] 臨床検査データを用いた診断支援の試みとその課題2021

Author(s)

Organizer

Related Report

[Presentation] 臨床検査の数値情報を対象とした機械学習適用の課題2020

Author(s)

Organizer

Related Report

[Presentation] 機械学習の活用による検査サービス向上を目指したアプローチ2020

Author(s)

Organizer

Related Report

[Presentation] 自動血球計数装置がもつビッグデータからの新知見発掘2020

Author(s)

Organizer

Related Report

片岡浩巳川崎医療福祉大学, 医療技術学部, 教授 (80398049)

[Journal Article] 医療ビッグデータの活用　医療ビッグデータ解析法2020