日本語の症例報告への自動アノテーション技術の開発

Research Project

Project/Area Number	22K12253
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 62010:Life, health and medical informatics-related
Research Institution	大学共同利用機関法人情報・システム研究機構(機構本部施設等)
Principal Investigator	山本泰智大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
Co-Investigator(Kenkyū-buntansha)	土肥栄祐国立研究開発法人国立精神・神経医療研究センター, 神経研究所疾病研究第三部, 室長 (00719213) 建石由佳国立研究開発法人科学技術振興機構, NBDC事業推進部, 研究員 (60439263) 藤原豊史大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (80815176)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2022: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords	日本語PDFからの情報抽出 / 疾患名抽出 / 日本語症例報告 / 日本語自然言語処理 / オントロジー
Outline of Research at the Start	全体で7000以上存在し、世界で3.5億人の患者がいる希少・難治性疾患に対しては、その性格上、症状や既往歴等の患者の状態から的確に診断できる医師が少ない。一人の医師が十分な症例数の診療経験を積むことが困難だからだ。そこで、患者の状態から尤もらしい疾患を推定するシステムが実現すれば、これらの問題への解決手段の一つになる。本研究では、本システムの構築に必須となる、症例報告から疾患を推定するために必要な情報を抽出して統制語彙と関連づけするアノテーション技術を開発する。希少・難治性疾患に関する日本語を対象とした取り組みは現状ないことから、対象は日本語で記載された文書とする。
Outline of Annual Research Achievements	今年度はJ-SATGEから取得したPDF形式の日本語の症例報告から必要な情報の抽出と構造化のための系の確立を目指した。具体的には、JSTとの契約により、J-STAGE収録全文献のメタデータを取得できるようになった。そこで、これを利用して希少疾患の症例報告を選択し、対応するPDFファイルを得たうえで、そこからテキストを抽出し、さらに希少疾患検索システムCaseSharingで利用可能な形式に合わせて現病歴、家族歴等の項目で構造化することを試みた。結果として、100件の症例報告に含まれる120症例を人手で構造化したデータセットを作成した。また、大規模言語モデルによるPDFの読み取りと構造化について、モデルの比較、プロンプトの検討などの予備実験を行った。 PDFは、文字が埋め込まれていないもの、表示はできても文字の抽出を禁じているものなどがあり、また、文字が読み取れてもヘッダー・フッターの分離、読み順の決定等レイアウトに起因する問題、上付き下付き文字などフォントに情報がある場合がある問題など、テキスト抽出、情報抽出の妨げになる問題が存在し、我々のほかの研究グループでも同様の困難を抱えている。一方で、LLMを用いることでPDFからのテキスト抽出が非常に効率よく行えるものもいくつか確認をすることができた。これについて、国立情報学研究所LLM-jpの学術ドメイン検討サブグループとの情報共有を開始した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 日本語症例報告は、英語症例報告と異なり、多くが主訴、現病歴、既往歴、家族歴、といったカテゴリーにて最初から構造化されているケースが多い。そのため、一度、テキストの抽出が成功すればここから、CaseSharingへのデータ移送が可能な一般化した構造化へのデータ変換には大きな困難はないと考えている。そのため、PDFからのテキスト抽出自体がこれまで大きな課題であったが、LLMをプロンプトを調整した形で運用することにより、一定のテキストはクリーンな抽出が可能となる。我々の目標としている点は、症例報告にある画像や検査データといった全ての情報を完全に抽出することでなく、最も中心的な情報となる、患者情報のテキストデータの抽出であり、この点に関して次のステップに進めるための効率化の大きな手がかりを得ることが出来ている。他の画像や検査データの取得に関しては、PDFからのマルチモーダルなデータ抽出機能が必要になると考えているが、この点は、国立情報学研究所LLM-jpのマルチモーダル検討サブグループにても開発が進行中であり、協業が開始された学術ドメインとも連動しているため、マルチモーダル技術の開発状況に応じて、当研究にも応用・展開を行う体制が確立できてたものと考えている。
Strategy for Future Research Activity	本年度の調査、および試行を踏まえた今後の研究推進の方向性は次の通りである。1: LLMによるPDFからのクリーンなテキスト抽出が可能なものと、そうで無いものの判別法を明らかとする。2：PDFからのテキスト抽出に関して、より良いプロンプトを準備したのちは、既に収集済みの約2000件の症例報告PDFに対してLLMを用いたテキスト抽出をバッチ処理する。そのために必要なシステムの開発は外注予定（実績のある業者と相談済み）。3: 抽出テキストの評価やチェックを、臨床医および医学生を動員することでクオリティのコントロールを行う。4:抽出テキストから、年齢、性別、病名などの基本情報に加え、症状・所見を抽出しHPOによるアノテーションを行う。ここでは、既に症状・所見の有無や時系列に基づいた抽出が可能なプロンプトを開発済みである。5: HPOに有る語句および無い語句を明らかとし、HPOに有る場合は、表記揺れを含めた上でのアノテーション機能の向上、HPOに無い場合は、HPOに追加して使用するオントロジーの構築も含めて構築を検討する。これらの取り組みを通し、自動アノテーションのために必要な機能や、オントロジーを含めた新たな知識基盤の構築法の開発につなげることができ、3年次の取り組みはそのまま共有の上、横展開できる形を視野に入れて、研究開発を進めて行く方針で有る。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(15 results)

All 2024 2023 2022

All Presentation (15 results) (of which Int'l Joint Research: 6 results, Invited: 3 results)

[Presentation] Linking NANDO/MONDO to J-Stage Case Reports2024
- Author(s)
  Yuka tateisi, Yasunori Yamamoto, Toyofumi Fujiwara, Eisuke Dohi
- Organizer
  Biomedical Linked Annotation Hackathon (BLAH8)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Efficient Generation of Japanese Translations for Mammalian Phenotype Using LLM and Comparative Analysis of its Relationship with Human Phenotype2024
- Author(s)
  Terue Takatsuki, Tatsuya Kushida, Eisuke Dohi
- Organizer
  Biomedical Linked Annotation Hackathon (BLAH8)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Disease and organ-specific HPO organization and extraction methods and their validation2024
- Author(s)
  Eisuke Dohi, Terue Takatsuki
- Organizer
  Biomedical Linked Annotation Hackathon (BLAH8)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 症状・所見のアノテーションにおけるオントロジーの問題. 日本語言語資源の構築と利用性の向上2024
- Author(s)
  土肥栄祐、高月照江、建石由佳、藤原豊史、山本泰智
- Organizer
  第30回言語処理学会 (2024.3.11-15. ライトニングトーク)
- Related Report
  2023 Research-status Report
[Presentation] 難病・希少疾患検索システムのための言語資源データ作成：症例報告を用いたコーパス作成2023
- Author(s)
  土肥栄祐、建石由佳、藤原豊史、山本泰智
- Organizer
  第11回日本難病医療ネットワーク学会学術集会
- Related Report
  2023 Research-status Report
[Presentation] CaseSharing: A case information management system in PubCaseFinder suitable for sharing rare disease cases2023
- Author(s)
  Toyofumi Fujiwara, Eisuke Dohi, Jae-Moon Shin, Yuka Tateishi, Yasunori Yamamoto, Atsuko Yamaguchi, Atsuo Kikuchi.
- Organizer
  Human Genetics Asia
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] How to visualize the Phenotype Diversity. A Report with Alexander’s disease case reports2023
- Author(s)
  Eisuke Dohi, Yuka Tateishi, Jae-Moon Shin, Shinichiro Tago, Toyofumi Fujiwara, Yasunori Yamamoto
- Organizer
  Human Genetics Asia
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] The issues of each database and ontology from the viewpoints of clinicians2023
- Author(s)
  Eisuke Dohi, Yuka Tateishi, Jae-Moon Shin, Toyofumi Fujiwara, Yasunori Yamamoto
- Organizer
  Human Genetics Asia
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] アレキサンダー病症例報告からの、症状多様性の可視化2023
- Author(s)
  土肥栄祐、建石由佳、申在紋、藤原豊史、山本泰智
- Organizer
  第64回日本神経学会学術大会
- Related Report
  2023 Research-status Report
[Presentation] PubCaseFinderを使用した難病診断戦略と、みんなで症例登録システムを活用して症例コーパスを育てよう2023
- Author(s)
  ○土肥栄祐建石由佳山本泰智藤原豊史
- Organizer
  第26回日本病院総合診療医学会学術総会
- Related Report
  2022 Research-status Report
[Presentation] アレキサンダー病症例報告からの、症状多様性の可視化2023
- Author(s)
  ○土肥栄祐建石由佳申在紋山本泰智藤原豊史
- Organizer
  第26回日本病院総合診療医学会学術総会
- Related Report
  2022 Research-status Report
[Presentation] 難病・希少疾患の症例報告を用いたコーパス作成への道のり2023
- Author(s)
  ○土肥栄祐建石由佳山本泰智藤原豊史
- Organizer
  言語処理学会第29回年次大会併設ワークショップ JLR2023
- Related Report
  2022 Research-status Report
[Presentation] 困った時に使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2023
- Author(s)
  藤原豊史
- Organizer
  第26回日本病院総合診療医学会学術総会
- Related Report
  2022 Research-status Report
- Invited
[Presentation] Future Diagnosis2023
- Author(s)
  ○土肥栄祐飯村傑原瀬翔平鳥越恵治郎花谷行雄
- Organizer
  第26回病院総合診療医学会学術総会
- Related Report
  2022 Research-status Report
- Invited
[Presentation] 誰でも使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2022
- Author(s)
  藤原豊史
- Organizer
  Rare Disease Medical Forum 2022
- Related Report
  2022 Research-status Report
- Invited

日本語の症例報告への自動アノテーション技術の開発

Principal Investigator

山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Linking NANDO/MONDO to J-Stage Case Reports2024

Author(s)

Organizer

Related Report

[Presentation] Efficient Generation of Japanese Translations for Mammalian Phenotype Using LLM and Comparative Analysis of its Relationship with Human Phenotype2024

Author(s)

Organizer

Related Report

[Presentation] Disease and organ-specific HPO organization and extraction methods and their validation2024

Author(s)

Organizer

Related Report

[Presentation] 症状・所見のアノテーションにおけるオントロジーの問題. 日本語言語資源の構築と利用性の向上2024

Author(s)

Organizer

Related Report

[Presentation] 難病・希少疾患検索システムのための言語資源データ作成：症例報告を用いたコーパス作成2023

Author(s)

Organizer

Related Report

[Presentation] CaseSharing: A case information management system in PubCaseFinder suitable for sharing rare disease cases2023

Author(s)

Organizer

Related Report

[Presentation] How to visualize the Phenotype Diversity. A Report with Alexander’s disease case reports2023

Author(s)

Organizer

Related Report

[Presentation] The issues of each database and ontology from the viewpoints of clinicians2023

Author(s)

Organizer

Related Report

[Presentation] アレキサンダー病症例報告からの、症状多様性の可視化2023

Author(s)

Organizer

Related Report

[Presentation] PubCaseFinderを使用した難病診断戦略と、みんなで症例登録システムを活用して症例コーパスを育てよう2023

Author(s)

Organizer

Related Report

[Presentation] アレキサンダー病症例報告からの、症状多様性の可視化2023

Author(s)

Organizer

Related Report

[Presentation] 難病・希少疾患の症例報告を用いたコーパス作成への道のり2023

Author(s)

Organizer

Related Report

[Presentation] 困った時に使える難病・希少疾患検索WEBツール ーPubCaseFinder とその実演ー2023

Author(s)

Organizer

Related Report

[Presentation] Future Diagnosis2023

Author(s)

Organizer

Related Report

[Presentation] 誰でも使える難病・希少疾患検索WEBツール ーPubCaseFinder とその実演ー2022

Author(s)

Organizer

Related Report

山本泰智大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)

[Presentation] 困った時に使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2023

[Presentation] 誰でも使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2022