• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

深層学習と意味解析を組み合わせた臨床研究データを標準化する手法の開発

Research Project

Project/Area Number 17K15866
Research InstitutionHokkaido University

Principal Investigator

西本 尚樹  北海道大学, 大学病院, 特任准教授 (90599630)

Project Period (FY) 2017-04-01 – 2023-03-31
KeywordsRPA / マッピング / 深層学習 / CDISC SDTM / 自然言語処理
Outline of Annual Research Achievements

2021年度の研究実績として、医学用語及び変数名のマッピングに、CDISC SDTM変数名とCDISC Controlled Terminologyを用いて、既存の臨床試験の変数マッピングの自動化を行った。臨床研究データの標準化には用語集同士のマッピングや分類といった人手がかかる作業が欠かせない。そこで、プログラミング言語Pythonを使用して、robotic process automation(RPA)の一環としてルール化を行った。データは2020年度に引き続き、統計解析パッケージSAS(SAS Institute Inc., Cary, NC, USA)に収録されている3,264人分のサンプルデータ(BMIデータ)を用いた。2020年度には、これらをSPARQL(SPARQL Protocol and RDF Query Language)を用いて、従来のリレーショナルデータベースよりも意味を考慮した検索ができるようにデータを整備したが、データの更新の労力とデータのマッピングされたデータの再現性を考慮し、ルール集の構築を行った。作成されたルールは、Pythonによって実装した。PythonによるRPAプログラムでは、CSV/Excelファイルの読み込みから編集、結果の出力までを網羅した。プログラムの構築方法は、AROのデータセンターにおける勉強会を通して、EDCの設定ファイルをクリーンアップするためのプログラムとして、臨床試験データマネージャに還元した。

Current Status of Research Progress
Current Status of Research Progress

4: Progress in research has been delayed.

Reason

本研究においては、研究者本人の体調不良、データサイエンスセンターで受託する治験の進捗、また、新型コロナウィルスによる渡航禁止の影響により学会等での議論ができなかったため、進捗が遅れている。現在までに以下の3点において進捗を確認してきた。(1)Semantic integration技術:SS-MIX2データに対するメタデータの構築を行うOWLのパラメータとなる記述を使って進めていた。しかし、CDISC SDTMへのマッピングは確認できたものの、OWLパラメータの適格性やSPARQLクエリへの対応に時間がかかっている。(2)深層学習:マッピング元の医学用語・変数と、マッピング先の変数・標準化用語の変換パターン分類とプログラミング言語による処理の自動化を行った。一方で、Semantic integration技術と深層学習の技術を融合に時間がかかっており、大規模データをハンドリングする環境の構築が引き続き必要となる。また、これまで自然言語処理技術との親和性を鑑みJava/Groovyに移行するよう進めてきたが、深層学習を行う時の実装が複雑になるため、PythonとSASで進めることとした。(3)Robotic process automation:マッピング成功割合を向上させるルールの構築については、Pythonプログラムで実装した。2021年度は実装したルールやファイルのハンドリングについて、手法をまとめてAROのデータマネジメント部門向けに勉強会を行った。RPAによる自動化の方法論は蓄積されている。

Strategy for Future Research Activity

本研究では、SS-MIXなど他の情報ソースからCDISCへの変数マッピング、及びそれらルールをOWLで記述することに時間を要しているが、通常のプログラミン言語
よりもデータ解析や帳票出力に強いSASを用いることで進めて行く。自然言語処理にはPythonの外部モジュールに、自然言語処理ツールであるmecabを利用するものが公開されたため、今後はPythonでそれらのツールを利用することで、開発の高速化が見込まれる。実際に、データベースのハンドリングやExcelファイルのハンドリング、コピーや保存といった単純な処理はPythonによるRPAプログラムで多くを自動化することができた。また、SASから直接Pythonを利用するためのプロシージャはないが、コマンドラインによるPythonの起動を通して、ツール同士の連携を図る。データ処理については、SASとPythonを連携させることで解析用データセットの作成から帳票出力の作成まで半自動化による効率化を目指す。

Causes of Carryover

新型コロナウィルスの影響により、2021年4月から2022年3月の学会はオンラインで開催されたため、旅費が発生しなかった。そのため、旅費に次年度使用額が発生した。また、物品費については、書籍費やソフトウェアなどの消耗品を考慮して支出するよう、要求される性能と価格の調整を行ったが、深層学習の実行に必要なGPU(Graphics Processing Unit)としては性能が低いため、アルゴリズムの実証をするための環境構築に時間がかかった。2022年度に繰り越した研究費は、研究成果の論文出版に利用する。特に、近年臨床データの利用は、規制を遵守して進めるに当たり、医療情報部やAROへのコンサルテーションは必須となっている。本研究の成果を発表するために、臨床データ利用及び統計学手法のコンサルテーション費、医療情報学会、日本計量生物学会、DIA(Drug Information Association)への参加費、学術雑誌に投稿する前の英文校正に使用する計画である。

  • Research Products

    (5 results)

All 2021

All Journal Article (3 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (2 results)

  • [Journal Article] リハビリテーション職種が知っておくべき臨床統計 基礎から最新の話題まで 14.診断法の統計的評価(感度・特異度・ROC曲線等)2021

    • Author(s)
      西本 尚樹
    • Journal Title

      Journal of Clinical Rehabilitation

      Volume: 30(12) Pages: 1259-1259

  • [Journal Article] Validation of a two‐step approach combining serum biomarkers and liver stiffness measurement to predict advanced fibrosis2021

    • Author(s)
      Fujii Hideki、Enomoto Masaru、Fukumoto Shinya、Kimura Tatsuo、Nadatani Yuji、Takashima Shingo、Hagihara Atsushi、Uchida‐Kobayashi Sawako、Tamori Akihiro、Nishimoto Naoki、Kawada Norifumi
    • Journal Title

      JGH Open

      Volume: 5 Pages: 801~808

    • DOI

      10.1002/jgh3.12590

    • Peer Reviewed
  • [Journal Article] The FibroScan-aspartate aminotransferase score can stratify the disease severity in a Japanese cohort with fatty liver diseases2021

    • Author(s)
      Fujii Hideki、Fukumoto Shinya、Enomoto Masaru、Uchida-Kobayashi Sawako、Kimura Tatsuo、Tamori Akihiro、Nadatani Yuji、Takashima Shingo、Nishimoto Naoki、Kawada Norifumi
    • Journal Title

      Scientific Reports

      Volume: 11 Pages: 13844

    • DOI

      10.1038/s41598-021-93435-x

    • Peer Reviewed / Open Access
  • [Presentation] 臨床試験データセンターにおけるPythonを用いたrobotic process automationの試行2021

    • Author(s)
      西本 尚樹、吉永 和美、 齊藤 栄子、 北山 香織理、 森木 亜希、 深瀧 恭子、 伊藤 陽一
    • Organizer
      第13回日本臨床試験学会総会
  • [Presentation] サンプルデータを用いた臨床研究の解析用データベース定義書生成の試み2021

    • Author(s)
      西本 尚樹、伊藤 陽一、吉永 和美 様、齊藤 栄子、北山 香織理、森木 亜希.
    • Organizer
      第4回北海道支部会オンライン学術大会

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi