日本語の症例報告への自動アノテーション技術の開発

研究課題

研究課題/領域番号	22K12253
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分62010:生命、健康および医療情報学関連
研究機関	大学共同利用機関法人情報・システム研究機構(機構本部施設等)
研究代表者	山本泰智大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
研究分担者	土肥栄祐国立研究開発法人国立精神・神経医療研究センター, 神経研究所疾病研究第三部, 室長 (00719213) 建石由佳国立研究開発法人科学技術振興機構, NBDC事業推進部, 研究員 (60439263) 藤原豊史大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (80815176)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2022年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード	日本語PDFからの情報抽出 / 疾患名抽出 / 日本語症例報告 / 日本語自然言語処理 / オントロジー
研究開始時の研究の概要	全体で7000以上存在し、世界で3.5億人の患者がいる希少・難治性疾患に対しては、その性格上、症状や既往歴等の患者の状態から的確に診断できる医師が少ない。一人の医師が十分な症例数の診療経験を積むことが困難だからだ。そこで、患者の状態から尤もらしい疾患を推定するシステムが実現すれば、これらの問題への解決手段の一つになる。本研究では、本システムの構築に必須となる、症例報告から疾患を推定するために必要な情報を抽出して統制語彙と関連づけするアノテーション技術を開発する。希少・難治性疾患に関する日本語を対象とした取り組みは現状ないことから、対象は日本語で記載された文書とする。
研究実績の概要	今年度はJ-SATGEから取得したPDF形式の日本語の症例報告から必要な情報の抽出と構造化のための系の確立を目指した。具体的には、JSTとの契約により、J-STAGE収録全文献のメタデータを取得できるようになった。そこで、これを利用して希少疾患の症例報告を選択し、対応するPDFファイルを得たうえで、そこからテキストを抽出し、さらに希少疾患検索システムCaseSharingで利用可能な形式に合わせて現病歴、家族歴等の項目で構造化することを試みた。結果として、100件の症例報告に含まれる120症例を人手で構造化したデータセットを作成した。また、大規模言語モデルによるPDFの読み取りと構造化について、モデルの比較、プロンプトの検討などの予備実験を行った。 PDFは、文字が埋め込まれていないもの、表示はできても文字の抽出を禁じているものなどがあり、また、文字が読み取れてもヘッダー・フッターの分離、読み順の決定等レイアウトに起因する問題、上付き下付き文字などフォントに情報がある場合がある問題など、テキスト抽出、情報抽出の妨げになる問題が存在し、我々のほかの研究グループでも同様の困難を抱えている。一方で、LLMを用いることでPDFからのテキスト抽出が非常に効率よく行えるものもいくつか確認をすることができた。これについて、国立情報学研究所LLM-jpの学術ドメイン検討サブグループとの情報共有を開始した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由日本語症例報告は、英語症例報告と異なり、多くが主訴、現病歴、既往歴、家族歴、といったカテゴリーにて最初から構造化されているケースが多い。そのため、一度、テキストの抽出が成功すればここから、CaseSharingへのデータ移送が可能な一般化した構造化へのデータ変換には大きな困難はないと考えている。そのため、PDFからのテキスト抽出自体がこれまで大きな課題であったが、LLMをプロンプトを調整した形で運用することにより、一定のテキストはクリーンな抽出が可能となる。我々の目標としている点は、症例報告にある画像や検査データといった全ての情報を完全に抽出することでなく、最も中心的な情報となる、患者情報のテキストデータの抽出であり、この点に関して次のステップに進めるための効率化の大きな手がかりを得ることが出来ている。他の画像や検査データの取得に関しては、PDFからのマルチモーダルなデータ抽出機能が必要になると考えているが、この点は、国立情報学研究所LLM-jpのマルチモーダル検討サブグループにても開発が進行中であり、協業が開始された学術ドメインとも連動しているため、マルチモーダル技術の開発状況に応じて、当研究にも応用・展開を行う体制が確立できてたものと考えている。
今後の研究の推進方策	本年度の調査、および試行を踏まえた今後の研究推進の方向性は次の通りである。1: LLMによるPDFからのクリーンなテキスト抽出が可能なものと、そうで無いものの判別法を明らかとする。2：PDFからのテキスト抽出に関して、より良いプロンプトを準備したのちは、既に収集済みの約2000件の症例報告PDFに対してLLMを用いたテキスト抽出をバッチ処理する。そのために必要なシステムの開発は外注予定（実績のある業者と相談済み）。3: 抽出テキストの評価やチェックを、臨床医および医学生を動員することでクオリティのコントロールを行う。4:抽出テキストから、年齢、性別、病名などの基本情報に加え、症状・所見を抽出しHPOによるアノテーションを行う。ここでは、既に症状・所見の有無や時系列に基づいた抽出が可能なプロンプトを開発済みである。5: HPOに有る語句および無い語句を明らかとし、HPOに有る場合は、表記揺れを含めた上でのアノテーション機能の向上、HPOに無い場合は、HPOに追加して使用するオントロジーの構築も含めて構築を検討する。これらの取り組みを通し、自動アノテーションのために必要な機能や、オントロジーを含めた新たな知識基盤の構築法の開発につなげることができ、3年次の取り組みはそのまま共有の上、横展開できる形を視野に入れて、研究開発を進めて行く方針で有る。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(15件)

すべて 2024 2023 2022

すべて学会発表 (15件) (うち国際学会 6件、招待講演 3件)

[学会発表] Linking NANDO/MONDO to J-Stage Case Reports2024
- 著者名/発表者名
  Yuka tateisi, Yasunori Yamamoto, Toyofumi Fujiwara, Eisuke Dohi
- 学会等名
  Biomedical Linked Annotation Hackathon (BLAH8)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Efficient Generation of Japanese Translations for Mammalian Phenotype Using LLM and Comparative Analysis of its Relationship with Human Phenotype2024
- 著者名/発表者名
  Terue Takatsuki, Tatsuya Kushida, Eisuke Dohi
- 学会等名
  Biomedical Linked Annotation Hackathon (BLAH8)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Disease and organ-specific HPO organization and extraction methods and their validation2024
- 著者名/発表者名
  Eisuke Dohi, Terue Takatsuki
- 学会等名
  Biomedical Linked Annotation Hackathon (BLAH8)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 症状・所見のアノテーションにおけるオントロジーの問題. 日本語言語資源の構築と利用性の向上2024
- 著者名/発表者名
  土肥栄祐、高月照江、建石由佳、藤原豊史、山本泰智
- 学会等名
  第30回言語処理学会 (2024.3.11-15. ライトニングトーク)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 難病・希少疾患検索システムのための言語資源データ作成：症例報告を用いたコーパス作成2023
- 著者名/発表者名
  土肥栄祐、建石由佳、藤原豊史、山本泰智
- 学会等名
  第11回日本難病医療ネットワーク学会学術集会
- 関連する報告書
  2023 実施状況報告書
[学会発表] CaseSharing: A case information management system in PubCaseFinder suitable for sharing rare disease cases2023
- 著者名/発表者名
  Toyofumi Fujiwara, Eisuke Dohi, Jae-Moon Shin, Yuka Tateishi, Yasunori Yamamoto, Atsuko Yamaguchi, Atsuo Kikuchi.
- 学会等名
  Human Genetics Asia
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] How to visualize the Phenotype Diversity. A Report with Alexander’s disease case reports2023
- 著者名/発表者名
  Eisuke Dohi, Yuka Tateishi, Jae-Moon Shin, Shinichiro Tago, Toyofumi Fujiwara, Yasunori Yamamoto
- 学会等名
  Human Genetics Asia
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] The issues of each database and ontology from the viewpoints of clinicians2023
- 著者名/発表者名
  Eisuke Dohi, Yuka Tateishi, Jae-Moon Shin, Toyofumi Fujiwara, Yasunori Yamamoto
- 学会等名
  Human Genetics Asia
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] アレキサンダー病症例報告からの、症状多様性の可視化2023
- 著者名/発表者名
  土肥栄祐、建石由佳、申在紋、藤原豊史、山本泰智
- 学会等名
  第64回日本神経学会学術大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] PubCaseFinderを使用した難病診断戦略と、みんなで症例登録システムを活用して症例コーパスを育てよう2023
- 著者名/発表者名
  ○土肥栄祐建石由佳山本泰智藤原豊史
- 学会等名
  第26回日本病院総合診療医学会学術総会
- 関連する報告書
  2022 実施状況報告書
[学会発表] アレキサンダー病症例報告からの、症状多様性の可視化2023
- 著者名/発表者名
  ○土肥栄祐建石由佳申在紋山本泰智藤原豊史
- 学会等名
  第26回日本病院総合診療医学会学術総会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 難病・希少疾患の症例報告を用いたコーパス作成への道のり2023
- 著者名/発表者名
  ○土肥栄祐建石由佳山本泰智藤原豊史
- 学会等名
  言語処理学会第29回年次大会併設ワークショップ JLR2023
- 関連する報告書
  2022 実施状況報告書
[学会発表] 困った時に使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2023
- 著者名/発表者名
  藤原豊史
- 学会等名
  第26回日本病院総合診療医学会学術総会
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[学会発表] Future Diagnosis2023
- 著者名/発表者名
  ○土肥栄祐飯村傑原瀬翔平鳥越恵治郎花谷行雄
- 学会等名
  第26回病院総合診療医学会学術総会
- 関連する報告書
  2022 実施状況報告書
- 招待講演
[学会発表] 誰でも使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2022
- 著者名/発表者名
  藤原豊史
- 学会等名
  Rare Disease Medical Forum 2022
- 関連する報告書
  2022 実施状況報告書
- 招待講演

日本語の症例報告への自動アノテーション技術の開発

研究代表者

山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] Linking NANDO/MONDO to J-Stage Case Reports2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Efficient Generation of Japanese Translations for Mammalian Phenotype Using LLM and Comparative Analysis of its Relationship with Human Phenotype2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Disease and organ-specific HPO organization and extraction methods and their validation2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 症状・所見のアノテーションにおけるオントロジーの問題. 日本語言語資源の構築と利用性の向上2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 難病・希少疾患検索システムのための言語資源データ作成：症例報告を用いたコーパス作成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] CaseSharing: A case information management system in PubCaseFinder suitable for sharing rare disease cases2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] How to visualize the Phenotype Diversity. A Report with Alexander’s disease case reports2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] The issues of each database and ontology from the viewpoints of clinicians2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] アレキサンダー病症例報告からの、症状多様性の可視化2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] PubCaseFinderを使用した難病診断戦略と、みんなで症例登録システムを活用して症例コーパスを育てよう2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] アレキサンダー病症例報告からの、症状多様性の可視化2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 難病・希少疾患の症例報告を用いたコーパス作成への道のり2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 困った時に使える難病・希少疾患検索WEBツール ーPubCaseFinder とその実演ー2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Future Diagnosis2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 誰でも使える難病・希少疾患検索WEBツール ーPubCaseFinder とその実演ー2022

著者名/発表者名

学会等名

関連する報告書

山本泰智大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)

[学会発表] 困った時に使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2023

[学会発表] 誰でも使える難病・希少疾患検索WEBツール　ーPubCaseFinder とその実演ー2022