研究課題/領域番号 |
17K15866
|
研究機関 | 北海道大学 |
研究代表者 |
西本 尚樹 北海道大学, 大学病院, 特任准教授 (90599630)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
キーワード | 深層学習 / Semantic integration / SPARQL / RDF / CDISC / マッピング / 自然言語処理 |
研究実績の概要 |
2020年度の研究実績として、医学用語及び変数名のマッピングに、CDISC SDTM変数名とCDISC Controlled Terminologyを用いて、既存の臨床試験の変数マッピングを行った。これらのマッピングでは、深層学習を用いるために、プログラミング言語Pythonを使用して、ルール化を行った。データは、統計解析パッケージSAS(SAS Institute Inc., Cary, NC, USA)に収録されている3,264人分のサンプルデータ(BMIデータ)を用いた。サンプルデータは、national health and nutrition examination survey (NHANES)の1999-2000年及び2001-2002年に調査された8250人の男性のデータであり、サンプリングされたものを使用した。この変数名に対して、semantic integrationの技術より、2019年度は、OWL(Ontology Web Language) で記述される"owl:equivalentClass", "owl:equivalentProperty"及び"owl:sameAs"を適用した。2020年度は、これらをSPARQL(SPARQL Protocol and RDF Query Language)を用いて、従来のリレーショナルデータベースよりも意味を考慮した検索ができるようにデータを整備した。Pythonから、Java/Groovyへの環境移行を検討したが、深層学習のライブラリ利用が困難であることから、引き続きPythonとSASを用いて、解析を行うこととした。上記に付随して、ROC解析の手法について、共著で教科書の執筆を行い、2020年2月に出版された。また、北海道大学病院神経内科との共同で、多系統萎縮症のコホート研究の論文がBMJ Openに掲載された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本研究においては、研究者本人の育休取得、臨床研究開発センターで受託する治験の進捗や、また、新型コロナウィルスによる渡航禁止の影響により学会等等での議論ができなかったため、進捗が遅れている。現在までに以下の3点において進捗を確認してきた。(1)Semantic integration技術:SS-MIX2データに対するメタデータの構築を行うOWLのパラメータとなる記述を使って進めていた。しかし、CDISC SDTMへのマッピングは確認できたものの、OWLパラメータの適格性やSPARQLクエリへの対応に時間がかかっている。(2)深層学習:マッピング元の医学用語・変数と、マッピング先の変数・標準化用語の変換パターン分類とプログラミング言語による処理の自動化を行った。一方で、Semantic integration技術と深層学習の技術を融合に時間がかかっており、大規模データをハンドリングする環境の構築が引き続き必要となる。また、これまで自然言語処理技術との親和性を鑑みJava/Groovyに移行するよう進めてきたが、深層学習を行う時の実装が複雑になるため、PythonとSASで進めることとした。(3)現状のマッピング成功割合24%から20%以上、上乗せとなる変換成功割合向上を目指すルールベースのマッピングについては、その性能を向上できることを確認したが、composite outcomeになるような変数や単純なルールベースでいかない変数への対応を考慮している。すでにSS-MIX2からCDISCへの変換は、プログラム共有サイトのGitHubに、そのツールが公開されている。公開されている変換ツールを組み入れたアルゴリズムの開発に着手している。
|
今後の研究の推進方策 |
本研究では、SS-MIXなど他の情報ソースからCDISCへの変数マッピング、及びそれらルールをOWLで記述することに時間を要しているが、通常のプログラミング言語よりもデータ解析や帳票出力に強いSASを用いることで進めて行く。自然言語処理に強いJava/Groovyを用いることで、処理が簡便になることを期待して取り組んできたが、Pythonの外部モジュールに、自然言語処理ツールであるmecabを利用するものが公開されたため、今後はPythonでそれらのツールを利用することで、開発の高速化が見込まれる。 具体的には、OWLのXMLフォーマットを記載する際に、Pythonで利用可能なXMLパーサを用いて、アルゴリズムによる自動的な対応付けと、人手による修正の大幅な効率化が期待できる。また、SASから直接Pythonを利用するためのプロシージャはないが、コマンドラインによるPythonの起動を通して、ツール同士の連携を図る。データ処理については、SASでDS2プロシージャなど、マルチスレッドで高速に動作するプロシージャが導入されているため、大規模なデータセットであっても、アルゴリズムは実行可能である。開発環境は、プログラミング言語PythonおよびChainerを用いる。臨床データの解析として引き続き、香川大学医学部附属病院で治療を行った330名のくも膜下出血患者の臨床データを解析し、解析用データセットADaMへの変換可能性についての論文化を進めている。
|
次年度使用額が生じた理由 |
新型コロナウィルスの影響により、2020年4月から2021年3月の学会に旅費が発生しなかったため旅費に次年度使用額が発生した。また、物品費については、書籍費やソフト ウェアなどの消耗品を考慮して支出するよう、要求される性能と価格の調整を行ったが、深層学習の実行に必要なGPU(Graphics Processing Unit)としては性能が低いため、アルゴリズムの実証をするための環境構築に時間がかかった。本年度は、GPUを増設し、深層学習の処理能力を上げて変数間のマッピングアルゴリズムの精緻化を行う。2021年度に繰り越した研究費は、香川大との共同研究で実施した研究成果の論文出版に利用する。特に、近年臨床データの利用は、規制を遵守して進めるに当たり、医療情報部やAROへのコンサルテーションは必須となっている。本研究の成果を発表するために、臨床データ利用及び統計学手法のコンサルテーション費、医療情報学会、日本計量生物学会、DIA(Drug Information Association)への参加費、学術雑誌に投稿する前の英文校正に使用する計画である。
|