2019 Fiscal Year Research-status Report
Word2Vecによる医学用語の分散表現は疾患間の数学的距離を定量的に表現するか
Project/Area Number |
19K16941
|
Research Institution | Chiba University |
Principal Investigator |
横川 大樹 千葉大学, 医学部附属病院, 特任助教 (80779869)
|
Project Period (FY) |
2019-04-01 – 2021-03-31
|
Keywords | Word2Vec / Doc2Vec / 分散表現 / 疾患間距離 / 症状間距離 / 臨床診断 |
Outline of Annual Research Achievements |
千葉大学医学部附属病院 総合診療科(以下、当科)においては特に病歴聴取を中心とした診断技能の訓練をしている。臨床診断のシステム化・自動化が進まない理由の理由の一つに、疾患と疾患が(症状と症状が)どれくらい似ているかを定量的に評価する手法が無く、適切に学習やレコメンドできないことが挙げられる。「似た病態生理に基づく疾患群は、疾患同士が持つ病歴の特徴も似ている」ため疾患類似度は臨床診断に重要である。類似疾患群は、医師は経験的に会得しているものの、定量的に示されていなかった。 当科のカルテ60,000件の自然言語に「Word2VecやDoc2Vec」という単語の分散表現を行うニューラルネットワーク技術を適応することで、「疾患間距離」や「症状間距離」が計算できることが予想された。今回得られる特徴量は日本語を解析させた情報であり、日本発の自動診断システム・診断推論補助システムの構築を推し進めることができると考えた。 平成31年度は「データの洗浄と前処理、特徴量抽出」を試みた。企画情報部を通じて当科へ受診した患者の電子カルテデータより、SOAP形式の記述におけるSubjective(患者の主観的記述)とObjective(医師による客観的記述)、Assessment(医師の考察)、Plan(今後の方針)を抽出した。データはまず約60,000件のうち、2019年分の約6,000件を抽出した。データクリーニングして得られたテキストデータを結合し、一行に一カルテとなるように整形した。テキストデータをPythonおよびMecabを使用し形態素解析を行い、名詞、動詞、形容詞、副詞のみを残した。名詞でも数および固有名詞は削除した。解析を異なり語数 37,343語、延べ語数 17,371,012語の単語列を得た。その後gensimを用いてWored2Vecを行い、単語の分散表現を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成31年度の目標は「データの洗浄と前処理、特徴量抽出」とした。まず千葉大学医学部附属病院の倫理委員会の承認を得た。次に企画情報部を通じて当科へ受診した患者の電子カルテデータを抽出しようと試みた。しかしながら電子カルテ上の不具合のため、電子カルテの情報が最大文字数制限を受けてしまうことが明らかになった。この不具合の修正は令和2年度5月ごろに行われる予定である。そのため約60,000件のうち、抽出出来た情報は2019年分の約6,000件に限られた。
得られたデータの洗浄と前処理についてはPythonを用いて行う方針であった。計算機設計および深層学習の計算には研究代表者が教室内に所有しているパーソナルコンピュータ(Ubuntu 18.04、NVIDIA-Docker, CUDA 9、GPUアクセラレータ(NVIDIA製)搭載)を使用し、計算処理速度は最低限確保されていたが、データ数が膨大となる場合にはより高性能なコンピュータを要する。そのため32スレッドのCPUを及びGPUアクセラレータとしてGeForce TITAN RTXを搭載したコンピュータを発注したが、COVID-19のため到着が送れ、2020年3月末に到着した。上記の通り分散表現は得られたが、今後学習に用いるデータを増やしていくことにより精度を高めていく必要がある。
|
Strategy for Future Research Activity |
平成31年度に達成し得なかった課題としては、電子カルテの全件抽出がある。そのため引き続き当院企画情報部と連携し、必要に応じて電子カルテシステムの修正をしながら抽出を継続していく。前処理およびWord2Vecの学習に使用したプログラムは微小な修正を残し完成しており、データが蓄積され次第すぐに再学習を行うことが可能である。またDoc2Vecによる分散表現の獲得も予定している。 令和2年度の当初の目標は「分類器の設計と機械学習の実践・評価である。分散表現により各疾患(の単語)が持つベクトル表現が得られるため、ベクトル同士のコサイン距離が計算可能となる。そうして得られた特徴量によって、「ある疾患(症状)との距離が近い疾患(症状)リスト」として表現し、クラスタリングを行い、評価する。またその特徴量をもとに決定木やランダムフォレスト、ナイーブベイズなどの機械学習や、ニューラルネットワークを用いた分類器の設計と評価も予定している。また本研究結果の論文化および学術集会での発表を検討している。 なお本研究の今後の推進には、COVID-19感染症の影響を受ける可能性がある。
|
Causes of Carryover |
研究経費として見積もっていた研究端末(GPUアクセラレータ搭載)にアカデミック割引が適応できたことや、研究室内にあったケーブルなどを再利用することが出来たことにより次年度使用額が生じた。次年度使用額は翌年度の助成金と合わせ、予定通り、旅費及び論文投稿料・英文校正料や印刷費として使用予定とする。
|