研究課題/領域番号 |
17K15866
|
研究機関 | 北海道大学 |
研究代表者 |
西本 尚樹 北海道大学, 大学病院, 特任准教授 (90599630)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | 深層学習 / 変数mapping / Semantic integration / CDISC SDTM / 標準 / Java / Python / 自然言語処理 |
研究実績の概要 |
2019年度の成果として、医学用語のコーティングに統計解析パッケージのSASを用いて、既存の臨床試験の変数mappingを行った。昨年度の研究から引き続いて、プログラミング言語Pythonを使用して、変数のmappingを行っている。情報ソースは、統計解析パッケージSAS(SAS Institute Inc., Cary, NC, USA)に収録されている3,264人分のBMIと年齢のみが変数のサンプルデータ(BMIデータ)を用いた。サンプルデータは、米国のthe national center for health statisticsが公開しているnational health and nutrition examination survey (NHANES)の1999-2000年及び2001-2002年に調査された8250人の男性のデータであり、公開されているサンプルデータセットは、さらにサンプリングが行われているものである。この変数名に対して、semantic integrationの技術より、OWL(Ontology Web Language) で記述される"owl:equivalentClass", "owl:equivalentProperty"及び"owl:sameAs"を適用し、電子カルテデータの変数名や既存の試験のデータベース定義書から変数間のつながり、変換過程を記述する試みを行った。Semantic integrationは、実社会での応用例が集積されつつあるため、文献から、アルゴリズムの収集・分類を行った。 深層学習のアルゴリズムの適用について2019年度の進捗として、ワークステーションにGPUを増設し、PythonによるChainerの構築利用環境の構築を行った。自然言語処理と親和性の高いGroovyによる環境構築も同時に進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本研究の計画では、以下の3点を進めることとした。(1)Semantic integration技術:HL7/SS-MIX2データに対するメタデータの構築を行うOWLのパラメータとなる記述を使って進めている。SS-MIX2のデータセットを用いることは、倫理委員会等の手続きで時間がかかったため、解析パッケージSASに付随する公開データを用いて、他の情報ソースとCDISC間の変数マッピングを行った。(2)深層学習:変換パターンの分類とプログラミング言語による処理コーディングを行う自然言語処理の技術と深層学習の技術を融合させて、利用するために環境構築に時間がかかった。当初、Pythonで進めていたが、自然言語処理技術との親和性を鑑み、Java/Groovyに移行した。変換パターンの抽出は50%程度終了した。 (3)現状のマッピング割合24%から20%以上上乗せした変換割合向上を目指す ルールベースのマッピングについては、その性能を向上できることを確認したが、composite outcomeになるような変数や単純なルールベースでいかない変数への対応を考慮している。 すでにSS-MIX2からCDISCへの変換は、プログラム共有サイトのGitHubに、そのツールが公開されている。公開されている変換ツールを組み入れたアルゴリズムの開発に着手している。本研究においても、臨床研究開発センターで受託する治験の進捗や新型コロナウィルスの影響により、進捗が遅れている。
|
今後の研究の推進方策 |
本研究では、SS-MIXなど他の情報ソースからCDISCへの変数マッピング、及びそれらルールをOWLで記述することに時間を要しているが、通常のプログラミン言語よりもデータ解析や帳票出力に強いSASを用いること、及び自然言語処理に強いJava/Groovyを用いることで大きな進展が見込まれる。特に、Javaよりもプログラムの規定が緩く、解析パッケージにも取り入れられているGroovyによるコーディング効率の向上は非常に大きい。具体的には、OWLのXMLフォーマットを記載する際に、Groovyではデータセットとして階層構造を扱うライブラリが標準的に利用可能であるため、アルゴリズムによる自動的な対応付けと、人手による修正の大幅な効率化があげられる。また、SASにおけるGroovy procedureは、プログラミング言語GroovyをSASに移植したものであるが、組み込み言語としての特性を兼ね備えており、高速に動作するため、巨大なデータセットであっても、アルゴリズムは実行可能である。北海道大学で採用されているスーパーコンピュータの利用を検討している。開発環境は、プログラミング言語PythonおよびChainerを用いる。臨床データの解析として引き続き、香川大学医学部附属病院で治療を行った330名のくも膜下出血患者の臨床データを解析し、解析用データセットADaMへの変換可能性を論文化する。
|
次年度使用額が生じた理由 |
新型コロナウィルスの影響により、1月から3月の学会がキャンセルされたため、旅費に次年度使用額が発生した。また、物品費については、香川大学の手続き上の問題により、基盤整備費で購入したワークステーションを北海道大学病院に移管できなかったため、物品費でワークステーションを購入した。書籍費やソフトウェアなどの消耗品を考慮して支出するよう、要求される性能と価格の調整を行ったが、深層学習の実行に必要なGPU(Graphics Processing Unit)としては性能が低いため、アルゴリズムの実証をするための環境構築に時間がかかった。本年度は、GPUを増設し、深層学習の処理能力を上げて変数間のマッピングが行う。マッピングについても同様で、人件費10万円を計上していたが、業務委託ができなかった。申請者本人が実施することも含めて、本年度はマッピングの対象を絞って支出する。特に、近年臨床データの利用は、規制を遵守して進めるに当たり、医療情報部やAROへのコンサルテーションは必須となっている。本研究の成果を発表するために、臨床データ利用及び統計学手法のコンサルテーション費用、医療情報学会、日本計量生物学会、DIA(Drug Information Association)への旅費・参加費、学術雑誌に投稿する前の英文校正に使用する計画である。
|