2017 Fiscal Year Research-status Report
深層学習と意味解析を組み合わせた臨床研究データを標準化する手法の開発
Project/Area Number |
17K15866
|
Research Institution | Kagawa University |
Principal Investigator |
西本 尚樹 香川大学, 医学部附属病院, 准教授 (90599630)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 深層学習 / 仮想化技術 / 生物統計学 / 機械学習 / CDISC / 臨床研究 / 電子カルテ / SDTM |
Outline of Annual Research Achievements |
平成29年度には本研究で計画した3つも目標のうち、(1)と(2)の情報ソースの構築を進めた。(1)Semantic integration技術:HL7/SS-MIX2データに対するメタデータの構築を行う(2)深層学習:変換パターンの分類とプログラミング言語による処理コーディングを行う(3)現状のマッピング割合24%から20%以上上乗せした変換割合向上を目指す。 香川大学医学部附属病院医療情報部の研究チームと研究体制を継続し、HL7/SS-MIX2形式のデータ利用に関する助言を受け、既存の電子カルテデータのCDISC SDTM(Standard Data Tabulation Model)との対応付け(マッピング)を行った。 これまでの臨床研究及び医療用語研究の成果をもとに、semantic integration技術の利用環境を構築した。また、深層学習を組み合わせた臨床データとCDISC SDTMの連結可能性を解明するために、深層学習の利用環境として、Linuxサーバー上に仮想環境の構築およびプログラミング言語Pythonおよび、Chainerのインストールを行った。 病院情報システムに蓄積されたHL7/SS-MIX2データに対して、臨床研究で用いられる情報標準のCDISCへの対応可能性を調査した。具体的には、香川大学医学部附属病院で治療を行った330名のくも膜下出血患者の臨床データを引用し、治験では規制当局(PMDA)への提出データフォーマットとして採用されているCDISC SDTMの変数名への対応付けを行った。そのうち、最も対応可能性が高いと予想された臨床検査データへの対応可能性は、45検査名のうち、11検査名(11%)であり、12検査名(27%)については、情報学的な前処理が必要であることが明らかになった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
病院情報システムに蓄積されたHL7/SS-MIX2データに対して、臨床研究で用いられる情報標準のCDISCへの対応可能性を調査した。具体的には、香川大学医学部附属病院で治療を行った330名のくも膜下出血患者の臨床データを引用し、治験では規制当局(PMDA)への提出データフォーマットとして採用されているCDISC SDTMの変数名への対応付けを行った。そのうち、最も対応可能性が高いと予想された臨床検査データへの対応可能性は、45検査名のうち、11検査名(11%)であり、12検査名(27%)については、情報学的な前処理が必要であることが明らかになった。本研究の成果は、アジア太平洋医療情報学会(APAMI2018)で発表し、厚生労働省が推奨する情報標準SS-MIXを開発した研究者より、レトロスペクティブなデータの臨床研究に応用する問題点について指摘を受けた。 深層学習とSemantic integration技術の利用環境を構築するには、処理容量の大きなワークステーションなど、計算機環境の充実が欠かせない。本研究のだい1フェーズとして、上記臨床データの情報学的な解析を進めるとともに、Linuxサーバ環境の構築、仮想化、統計解析パッケージの導入、音声認識に入力環境の構築を行った。プログラミング言語Pythonおよび、Chainerのインストールを行った。 情報学的な研究において臨床データの症例数をどのように考えるかのガイドラインは存在していないが、医療機器の開発時に早いサイクルでの開発・改良をするため、少ない症例数によるベイズ推定が用いられている。平成29年度には、研究倫理審査委員会に申請し、ベイズ流の症例数設計を用いた手法の評価をAPAMI2018で報告した。
|
Strategy for Future Research Activity |
平成30年度の計画には、深層学習の最適アルゴリズムの探索を行う予定である。深層学習は、統計的な機械学習の手法を多く利用しているため、解析パッケージの利用は必須である。平成29年度に実施したCDISC SDTMへの対応付けデータを基に、統計モデルを用いた対応付けアルゴリズムの構築を行い、臨床データを臨床研究に応用する情報学的な手法の構築を目指す。深層学習の適用と並行して、以下の4点による既存手法の適用を探索する。(1)一般化線形モデルを基にしたアルゴリズム開発を行う。 ロジスティック回帰分析を応用した統計モデルを利用し、変換確率を算出する。(2)機械的なマッチングができなかった変数に対する人間の目による判断行う。ゴールドスタンダードとなるデータの開発を行う。あらかじめ人手によるMHドメイン、LABドメインを中心に、HIS変数名に対するCDISCドメイン名の付与を行う。(3)アルゴリズムの検証を行う。(4)SDTM変数名に対する対応可能性のモデル化を行う。深層学習を用いたCDISC SDTMへの変換について、引き続き自然言語処理によりHL7/SS-MIX2形式のデータを切り出し、深層学習を用いてCDISC SDTMへの対応可能性を判定する。最も、対応可能性の高いアルゴリズムを探索する。深層学習には、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、積層自己符号化器、ディープビリーフネットワークの4種類のアルゴリズムを競わせる。私たちの先行研究より、検証に必要な症例数は268例と算出されているため、アルゴリズムをブラッシュアップしながら、ベイズ流による変換割合の分布を明らかにしていく。変換割合の中央値が最も高い分布が推定されたアルゴリズムを対応可能性の高いアルゴリズムとして、semantic integrationの手法と組み合わせる。
|
Causes of Carryover |
研究基盤を構築するにあたり、支出計画通りにワークステーションや統計解析パッケージを購入した。臨床データをデータクリーニングするにあたり、臨床検査技師や看護師などの専門職の人件費を見積もっていたが、適格者が見つけられず雇用が進まなかった。また、専門職であってもCDISC SDTMの文書は情報構造モデルや統計学の用語が含まれており、既存の専門職教育では実施していない内容であるため、適格者の選定条件が厳しかったことも考えられる。学会発表に関して、米国DIA(Drug Information Association)や米国医療情報学会等への出張を予定していたが、世界医療情報学会が主催するMEDINFO2017が、中国Hangzhouで開催されたため、当初の予定よりも旅費の支出が少なかった。独立基盤形成支援で、追加された分の統計解析パッケージを利用して、倫理委員会における教育のほか、院内で初学者向け講義、実習を行った。医師、歯科医師、薬剤師を始め多くの専門職が参加した。統計解析パッケージは購入できたが、深層学習用の計算機については、深層学習を専用とした計算機は当初の見積もりよりも高額であったため、汎用ワークステーションのグラフィックボードを追加する方法に切り替える。今後は、複数台の計算機を使用した仮想環境を構築し、臨床データの意味解析を含めた多次元の解析を行う。
|
Research Products
(3 results)