2022 Fiscal Year Research-status Report
Project/Area Number |
22K12253
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
|
Co-Investigator(Kenkyū-buntansha) |
土肥 栄祐 国立研究開発法人国立精神・神経医療研究センター, 神経研究所 疾病研究第三部, 室長 (00719213)
建石 由佳 国立研究開発法人科学技術振興機構, NBDC事業推進部, 研究員 (60439263)
藤原 豊史 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (80815176)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 疾患名抽出 |
Outline of Annual Research Achievements |
今年度は研究に必要な言語資源にアクセス可能とする作業と、得られた場合に実施する作業の準備を行った。具体的には、多くの日本語の症例報告を機械処理可能とすべく、J-STAGEに収載されている文献への網羅的なアクセスを可能とするための契約をJSTと結んだ。一方で、本研究の目的に照らして必要な文献を選択するために必要な疾患名のリストをMONDOやNANDOなどの疾患名辞書から構築した。さらに、上述のJ-STAGE収載文献の題目を対象として、既存の疾患名抽出ツールMedNERやMedNLPParserを用いて疾患名を抽出し、利用可能な文献を把握する調査を進めた。 その結果、10,216文献から363疾患名が抽出された。疾患名の同義語や概念的下位語を含めた指定難病疾患名が1,031であることから、カバー率は35%であった。また、小児慢性疾患においては、2,325文献から抽出された本研究の対象となる疾患名の数は195であった。このカバー率は11%程度であり、この結果からのみ得られる結論としては、日本語症例報告に報告される、難病・希少疾患は、十分では無いこととなる。 しかし、今回はNANDOに記載のある主要な病名に対応する文献を抽出しており、十分な類義語を含んだ抽出とはなっていないため、このカバー率はさらに上昇する可能性がある。また日本の指定難病以外の難病・希少疾患はOMIMやOrphanetに収載されており、このような難病・希少疾患の抽出を次のステップでは目指し、日本語症例報告における難病・希少疾患の言語リソースの限界を明らかとする。現時点では、十分な難病・希少疾患の類義語を含んだ日本語訳リストは存在せず、本課題とは別の共同研究者のもとで現在作成中であることも明らかとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本語症例報告を含むJ-STAGEに収載されている文献へのアクセスが可能となったことが大きな進展であり、また、それを対象として必要な文献がどの程度含まれるかについて調査を進められたことが実績として挙げられる。一方で、文献に付随するメタデータ(例えば、症例報告であるか否か)や、文献のアブストラクトが機械可読な形で得られる事例が非常に少ないことから、疾患名の抽出に時間を要している問題がある。以上を踏まえて、標記進捗状況とした。 また、MONDO、OMIM、Orphanet、GARD、HPOなどの様々な疾患や症状に関係するオントロジーやデータベースにそれぞれ、どの様な特徴があり、どの様な点に問題があるのか?といった点を明らかにしつつある。例えばMONDOには動物の疾患も含まれている、HPOには病名や症状が混在している、といった点である。オントロジーやデータベースそれぞれの特性を知った上で利活用を行える様に、メンバーで共通認識が持てる様な整理も進行しており、本研究で用いるオントロジーやデータベースを適切に利活用できる状態になりつつある。
|
Strategy for Future Research Activity |
本年度の調査を踏まえた今後の検討課題は次のとおりである。1:文献の題目を対象とした疾患名抽出の精度を調査する一方で、より適切な抽出方法の有無についても調査する。2:抽出された疾患名に基づいて文献を選択した場合、そこに含まれる症例報告の割合を調査する。3:日本語で足りない場合、英語からの翻訳などによる診断資源の作成の必要性について検討するが、同時に、難病・希少疾患の疾患リストの類義語を含む日本語訳を作成中の研究者とも連携をとりながら、研究を進める。 更に、J-STAGEから得られる対象文献の殆どはPDF形式であり、その上、テキスト情報が含まれていない事例も多いことから、対象文献を見極めた上で、PDFから必要な情報を抽出するのか、今後検討する必要がある。 また、この先に予定されている、これら言語資源を用いたアノテーション方法の開発を進めるにあたり、a) HPOにないもの、b) HPOの上位概念・下位概念が混在する場合、c) 同じ症状・所見であっても重症度が異なる場合、d) 同じ症状・所見であっても原因が異なる場合、など、予備調査にて様々な課題が明らかとなっている。これらに関しては医療者によりアノテーションされた正解データを用いた語彙統制を行う。 その一方で、ChatGPTなどの大規模言語モデルが急速に発展し、広く利用可能となりつつある現状を踏まえて、これらの技術の利活用も予定する。例えば、日本語の症例報告に対して、Human Phenotype Ontology(HPO)のタームで注釈付けを行う作業を、プロンプトエンジニアリングで予備調査を行っているが、如何にして最適なプロンプトを構築するかに関しては未だ正解が無い。 明らかとなりつつある課題を整理し、並行して新規技術の応用も視野に入れながら、本研究を進めてゆく方針である。
|
Causes of Carryover |
当初計画していた、日本語症例報告に対する領域専門家によるアノテーションのための謝金については、今年度はアノテーション対象の文献をより詳細に吟味する必要性が生じたことや、最新の人工知能技術の利活用方法について検討したことなどにより、繰り越すことになった。ただし、本研究においては、その適用方法は検討するものの、人工知能技術だけで成果が得られることはないため、詳細なアノテーション計画を今年度中には立てた上で、繰り越した謝金を利用し、領域の専門家にアノテーション作業を委託する計画である。
|
Research Products
(6 results)