• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Can Distributed Representations of Disease Learned from Academic Journal Abstracts Represent the Distance Between Diseases?

Research Project

Project/Area Number 21K17848
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 62010:Life, health and medical informatics-related
Research InstitutionChiba University

Principal Investigator

Yokokawa Daiki  千葉大学, 医学部附属病院, 特任助教 (80779869)

Project Period (FY) 2021-04-01 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2021: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Keywords診断推論 / 自然言語処理 / Word2Vec / 分散表現 / 埋め込みベクトル / 疾患間距離 / 抄録 / 医中誌
Outline of Research at the Start

私は医師が行う病気の診断を人工知能に代替させる研究をしてきました。ある病気と他の病気がどれくらい似ているか=「疾患間距離」について、医師は教科書や経験に基づく推測をしていますが、具体的な数値で表現されたものはありません。医学中央雑誌より約180万件の医学論文の抄録をお借りし、Word2Vecという深層学習の技術によって、ある病気の単語を数字で表現すると、疾患間距離を計算することができます。広い医学の分野に渡り疾患間距離を計算することが、日本発の自動診断システム・診断支援システム構築の礎となる可能性があります。そのシステムの開発と普及は悲劇的な見逃しや誤診を防ぐ未来につながると考えます。

Outline of Final Research Achievements

Presently, no systems can be applied in actual medical settings to aid or replace the acquisition of diagnostic reasoning methods. I hypothesized that calculating disease similarity (inter-disease distance) could be instrumental in creating such systems. By training on 1,842,156 abstracts from the Central Medical Journal with Word2Vec, I procured distributed representations (disease vectors) of words denoting diseases and successfully calculated their distance.
I found 8,031 disease vectors corresponding to the International Classification of Diseases, 10th Edition (ICD-10), which match 3,915 ICD codes. Cohen's correlation coefficient reached a maximum value of 0.7748. Adjusted Rand index, standardization, normalized mutual information, and adjusted mutual information for ICD codes achieved maximum values of 0.3208, 0.8783, and 0.4242, respectively.

Academic Significance and Societal Importance of the Research Achievements

疾患間距離を医学文書から計算することで、主観的な経験則に基づく疾患想起から、客観的な距離に基づく疾患想起への転換が可能になる。医師の経験は収斂され分散表現へと置き換わり、普遍的で汎用性が高い距離データを得られる。これは診断推論の「疾患想起のプロセス」をAIに置き換え、自動診断システムや診断支援システムの開発への第一歩となる。これらのシステムは、自宅で病院へ行くべきか判断する際のサポートツールとなり、医療費削減や医療の質の均質化に貢献し、悲劇的な誤診や見逃しを削減する可能性がある。日本語に基づいたAI診断支援システムを作成するためには、日本独自の研究が必要で、本研究はその基盤となる。

Report

(3 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Research-status Report

URL: 

Published: 2021-04-28   Modified: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi