2021 Fiscal Year Research-status Report
多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発
Project/Area Number |
20K10336
|
Research Institution | Kawasaki University of Medical Welfare |
Principal Investigator |
片岡 浩巳 川崎医療福祉大学, 医療技術学部, 教授 (80398049)
|
Co-Investigator(Kenkyū-buntansha) |
畠山 豊 高知大学, 教育研究部医療学系連携医学部門, 准教授 (00376956)
中原 貴子 川崎医療福祉大学, 医療技術学部, 講師 (30462047)
奥原 義保 高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473)
桑原 篤憲 川崎医科大学, 医学部, 准教授 (50368627)
竹下 享典 埼玉医科大学, 医学部, 教授 (70444403)
久原 太助 高知大学, 医学部附属病院, 臨床検査技師 (80457407)
三上 史哲 香川大学, 医学部附属病院, 講師 (80550392)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 疑似ビッグデータ / 多次元データモデル / 分布の正規化 |
Outline of Annual Research Achievements |
本研究は、日常診療から得られた膨大なデータを元に、多次元モデルを作成し、この多次元モデルから逆変換した疑似ビッグデータを作成し、医学領域のデータサイエンス教育に利用可能な演習用データベースを構築することを目的とする。 本研究の課題として、1)リアルデータの情報収集基盤の構築、2)多次元モデル生成のためのプログラム開発、3)多次元モデルからの疑似データ作成の3つがある。これまでの研究でデータ収集基盤が整い、匿名化されたリアルワールドデータのデータベースの構築が完了している。 令和3年度は、2)の多次元モデル生成のためのプログラム開発に重点を置き研究開発を行った。汎用的な多次元モデルの生成アルゴリズムの開発にあたり、重要となる課題として、各属性に対する分布の正規化手法の検討と欠損値処理のアルゴリズムの選択課題がある。分布の正規化の課題に対しては、従来のBox-Cox変換の考え方に加えて、最適なべき乗変換値と変換原点の導出を行う方法を検討し、最適なパラメータの計算手法を確立した。一方、2値情報を含む段階的なデータに関しては、最大最小値を用いた方法を採用することとした。対象となる属性は、CBCの粒度情報や特徴量を含めると数万個にも及ぶ属性となった。これらの属性に対して、最適なパラメータを導出して、データベース化を試みた。欠損値の課題に関しては、自己組織化マップの類似距離計算と、学習率の計算法に工夫を加え、若干の欠損値が存在していても学習できるアルゴリズムを採用することとした。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
令和3年度は、多次元モデル生成のためのプログラム開発を行った。プログラム開発にあたり、当初計画していた、大きな課題となる以下の2点の検討を行った。 1)属性の正規化方法の検討:クラスタリングを行うときに必要となる属性の正規化方法について検討を行った。一般的な手法では各属性を一律に、Min-Max normalizationやZ-score normalizationが行われるが、臨床検査データの多くは、分布型が正規分布ではなく、単純に従来法を用いることができない。この問題を無視して解析を実施すると、医学的な視点で見て歪んだクラスターが生成されてしまう傾向があった。そこで、それぞれの属性に対して、分布型をより正確な正規分布に変換することで、Z-score normalizationを適用できる基盤を作成した。ところが、一般的なBox-Coxの式では、変換できない検査項目が多数存在(γGTやHbA1c、CBC粒度のNUT領域など)していたため、新たに、変換原点の補正法を導入し、連続値の場合は一律のアルゴリズムの適用で変換を可能とした。一方、2値や段階的データの場合では、Min-Max normalizationを採用した方が、医学的視点で納得できるクラスターの生成が可能であることが示唆された。 2)欠損値処理方法の検討:クラスタリング処理には欠損値が存在すると、欠損値のパターンに情報が引きずられてしまう問題があり、欠損値の無いデータを対象とするが、医学領域のデータでは、多くが欠損値となる。このため、自己組織化マップのアルゴリズム側で、類似距離計算と学習率の計算アルゴリズムを試行錯誤しながら、最適な手法を検討中である。 当初、個別のデータ分布を考慮せず一律に処理する計画であったが、今回の検討結果をふまえ、当初以上の精度でモデル化の実現が可能となったため、計画以上の進展といえる。
|
Strategy for Future Research Activity |
欠損値問題に配慮した新たな自己組織化マップの解析法の確立を目標として、類似距離計算と学習率の計算アルゴリズムの改良を行う予定である。また、病名の疾患群分類により検査の依頼パターンが定まる傾向があることから、疾患群分類毎に複数のモデルを作成する方法も検討する。
|
Causes of Carryover |
本年度は、プログラム開発に重点を置いた研究活動であった点と、新型コロナウィルスの蔓延に伴う、研究打ち合わせや学会出張の自粛が生じたため、予定した費用を繰り越すこととなった。 次年度は、成果をまとめ発表ならびに論文投稿を行うと同時に、解析結果のデータバックアップに使用する記録媒体の購入を予定している。
|