研究課題/領域番号 |
17K15866
|
研究機関 | 北海道大学 |
研究代表者 |
西本 尚樹 北海道大学, 大学病院, 特任准教授 (90599630)
|
研究期間 (年度) |
2017-04-01 – 2023-03-31
|
キーワード | RPA / マッピング / 深層学習 / CDISC SDTM / 自然言語処理 |
研究実績の概要 |
2021年度の研究実績として、医学用語及び変数名のマッピングに、CDISC SDTM変数名とCDISC Controlled Terminologyを用いて、既存の臨床試験の変数マッピングの自動化を行った。臨床研究データの標準化には用語集同士のマッピングや分類といった人手がかかる作業が欠かせない。そこで、プログラミング言語Pythonを使用して、robotic process automation(RPA)の一環としてルール化を行った。データは2020年度に引き続き、統計解析パッケージSAS(SAS Institute Inc., Cary, NC, USA)に収録されている3,264人分のサンプルデータ(BMIデータ)を用いた。2020年度には、これらをSPARQL(SPARQL Protocol and RDF Query Language)を用いて、従来のリレーショナルデータベースよりも意味を考慮した検索ができるようにデータを整備したが、データの更新の労力とデータのマッピングされたデータの再現性を考慮し、ルール集の構築を行った。作成されたルールは、Pythonによって実装した。PythonによるRPAプログラムでは、CSV/Excelファイルの読み込みから編集、結果の出力までを網羅した。プログラムの構築方法は、AROのデータセンターにおける勉強会を通して、EDCの設定ファイルをクリーンアップするためのプログラムとして、臨床試験データマネージャに還元した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本研究においては、研究者本人の体調不良、データサイエンスセンターで受託する治験の進捗、また、新型コロナウィルスによる渡航禁止の影響により学会等での議論ができなかったため、進捗が遅れている。現在までに以下の3点において進捗を確認してきた。(1)Semantic integration技術:SS-MIX2データに対するメタデータの構築を行うOWLのパラメータとなる記述を使って進めていた。しかし、CDISC SDTMへのマッピングは確認できたものの、OWLパラメータの適格性やSPARQLクエリへの対応に時間がかかっている。(2)深層学習:マッピング元の医学用語・変数と、マッピング先の変数・標準化用語の変換パターン分類とプログラミング言語による処理の自動化を行った。一方で、Semantic integration技術と深層学習の技術を融合に時間がかかっており、大規模データをハンドリングする環境の構築が引き続き必要となる。また、これまで自然言語処理技術との親和性を鑑みJava/Groovyに移行するよう進めてきたが、深層学習を行う時の実装が複雑になるため、PythonとSASで進めることとした。(3)Robotic process automation:マッピング成功割合を向上させるルールの構築については、Pythonプログラムで実装した。2021年度は実装したルールやファイルのハンドリングについて、手法をまとめてAROのデータマネジメント部門向けに勉強会を行った。RPAによる自動化の方法論は蓄積されている。
|
今後の研究の推進方策 |
本研究では、SS-MIXなど他の情報ソースからCDISCへの変数マッピング、及びそれらルールをOWLで記述することに時間を要しているが、通常のプログラミン言語 よりもデータ解析や帳票出力に強いSASを用いることで進めて行く。自然言語処理にはPythonの外部モジュールに、自然言語処理ツールであるmecabを利用するものが公開されたため、今後はPythonでそれらのツールを利用することで、開発の高速化が見込まれる。実際に、データベースのハンドリングやExcelファイルのハンドリング、コピーや保存といった単純な処理はPythonによるRPAプログラムで多くを自動化することができた。また、SASから直接Pythonを利用するためのプロシージャはないが、コマンドラインによるPythonの起動を通して、ツール同士の連携を図る。データ処理については、SASとPythonを連携させることで解析用データセットの作成から帳票出力の作成まで半自動化による効率化を目指す。
|
次年度使用額が生じた理由 |
新型コロナウィルスの影響により、2021年4月から2022年3月の学会はオンラインで開催されたため、旅費が発生しなかった。そのため、旅費に次年度使用額が発生した。また、物品費については、書籍費やソフトウェアなどの消耗品を考慮して支出するよう、要求される性能と価格の調整を行ったが、深層学習の実行に必要なGPU(Graphics Processing Unit)としては性能が低いため、アルゴリズムの実証をするための環境構築に時間がかかった。2022年度に繰り越した研究費は、研究成果の論文出版に利用する。特に、近年臨床データの利用は、規制を遵守して進めるに当たり、医療情報部やAROへのコンサルテーションは必須となっている。本研究の成果を発表するために、臨床データ利用及び統計学手法のコンサルテーション費、医療情報学会、日本計量生物学会、DIA(Drug Information Association)への参加費、学術雑誌に投稿する前の英文校正に使用する計画である。
|