2020 Fiscal Year Research-status Report
多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発
Project/Area Number |
20K10336
|
Research Institution | Kawasaki University of Medical Welfare |
Principal Investigator |
片岡 浩巳 川崎医療福祉大学, 医療技術学部, 教授 (80398049)
|
Co-Investigator(Kenkyū-buntansha) |
畠山 豊 高知大学, 教育研究部医療学系連携医学部門, 准教授 (00376956)
中原 貴子 川崎医療福祉大学, 医療技術学部, 講師 (30462047)
奥原 義保 高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473)
桑原 篤憲 川崎医科大学, 医学部, 准教授 (50368627)
竹下 享典 埼玉医科大学, 医学部, 教授 (70444403)
久原 太助 高知大学, 医学部附属病院, 臨床検査技師 (80457407)
三上 史哲 川崎医療福祉大学, 医療福祉マネジメント学部, 講師 (80550392)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 秘密分散 / 多次元データモデル / 疑似ビッグデータ |
Outline of Annual Research Achievements |
本研究は、膨大なリアルデータから算出したモデル(多次元特徴地図)から逆変換した疑似ビックデータを作成し、医学領域に特化したデータサイエンティストの育成のための演習用データベース教材を作成することを目的とする。リアルデータから生成したモデルを逆変換することで、作成された疑似ビッグデータはリアルデータに極めて近いデータセットとなり、教育に利用することができるだけでなく、生成した多次元モデルを知識発見研究にも利用することが可能である。 研究を遂行するにあたって以下の3点の大きな課題がある。 1)秘密分散技術を用いた情報収集基盤の構築、2)多次元モデル生成のためのプログラム開発、3)多次元モデルからの疑似データ作成 多次元モデルを構築するにあたって、モデルの偏りの防止と匿名性を高める目的で、可能な限り多くの施設からのデータを収集する必要があるが、元データあるいは施設毎の多次元モデルデータを収集する場合の情報セキュリティに配慮したデータ収集基盤を整える必要がある。このため、本年度は1)の秘密分散技術を用いた情報収集基盤の構築を優先的に行う計画とした。秘密分散技術はクラウドを用いたデータ交換を行う際、複数のクラウドに分散してデータの断片を格納することで、片側のデータが盗まれたとしても、そのデータを無効化できる仕組みとなる。構築したシステムは、複数施設からのデータ交換を行う場合の通信時の保護も考慮し、秘密分散通信技術も新たに導入しさらなるセキュリティの向上を目指した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
令和2年度は、多次元モデル生成を行うための元データ、あるいは、モデルデータの収集交換基盤を構築した。秘密分散と秘密分散通信技術を利用した方法により構築した。 データ収取・交換基盤には、強固な情報セキュリティ対策が必要であることから、秘密分散技術を用いた暗号技術を用いた。しかし、RSA暗号のような一般的な暗号化技術は計算量的安全性を安全の根拠にしている。このため、素因数分解が計算困難であることを利用しているため、近年、量子コンピューター等の高性能演算により、計算量的安全性は安全の根拠となりえないと言われている。そこで、考案されたのが、秘密分散技術であり、2017年にはISOによりISO/IEC 19592-2:2017として秘密分散の国際標準規格が発行されている。本研究では、この基盤技術を通信の安全性にも拡張した設計で構築し、データ交換基盤を整備した。これにより、迅速なデータ交換が可能となり、本研究の本題である、機械学習を用いたモデル化の研究に対する作業が迅速に行えるようになった。 現在、多次元モデル生成のためのプログラム開発も並行して行っており、これらのプログラムの配布や、個々のデータ保有施設で学習された多次元モデルデータの交換が可能となった。
|
Strategy for Future Research Activity |
データ収集と多次元モデルの作成作業は引き続き実施し、多施設のデータを集約した多次元モデルを生成する予定である。 本年度は、比較的欠損値の少ないCBCスキャッタグラムを対象とした時間軸を考慮しない、疾患を分類する多次元モデルの生成を優先的に行い、検査パターンの導出を集中的に行う予定である。一方、通常の生化学スクリーニング検査などの一般的な検査項目を対象としたモデル化には、欠損値の取り扱い方法に関する検討が必要であるため、検査の依頼パターンと検査値の時系列変動に視点を当てた検討を実施し、欠損値のあるデータに対する方策を練る予定である。 多次元モデルからの疑似データ作成の課題に関しては、次年度以降に研究を進めていく予定であるが、比較的小規模な属性を用いた疑似データの生成実験は、並行して実施する。
|
Causes of Carryover |
計画していた研究分担施設でのシステム構築ならびに調整がコロナ禍で困難であった点と、学会発表がWeb開催となり旅費負担費用が節約できたため次年度繰り越し額が生じた。次年度は、多次元臨床検査モデルの構築を行うため、研究分担施設でのシステム構築、ならびに、これらのモデルデータの収集を進めていくための費用として計画している。
|
Research Products
(5 results)