• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

日本語の症例報告への自動アノテーション技術の開発

Research Project

Project/Area Number 22K12253
Research Institution大学共同利用機関法人情報・システム研究機構(機構本部施設等)

Principal Investigator

山本 泰智  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)

Co-Investigator(Kenkyū-buntansha) 土肥 栄祐  国立研究開発法人国立精神・神経医療研究センター, 神経研究所 疾病研究第三部, 室長 (00719213)
建石 由佳  国立研究開発法人科学技術振興機構, NBDC事業推進部, 研究員 (60439263)
藤原 豊史  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (80815176)
Project Period (FY) 2022-04-01 – 2025-03-31
Keywords日本語PDFからの情報抽出
Outline of Annual Research Achievements

今年度はJ-SATGEから取得したPDF形式の日本語の症例報告から必要な情報の抽出と構造化のための系の確立を目指した。
具体的には、JSTとの契約により、J-STAGE収録全文献のメタデータを取得できるようになった。そこで、これを利用して希少疾患の症例報告を選択し、対応するPDFファイルを得たうえで、そこからテキストを抽出し、さらに希少疾患検索システムCaseSharingで利用可能な形式に合わせて現病歴、家族歴等の項目で構造化することを試みた。
結果として、100件の症例報告に含まれる120症例を人手で構造化したデータセットを作成した。また、大規模言語モデルによるPDFの読み取りと構造化について、モデルの比較、プロンプトの検討などの予備実験を行った。
PDFは、文字が埋め込まれていないもの、表示はできても文字の抽出を禁じているものなどがあり、また、文字が読み取れてもヘッダー・フッターの分離、読み順の決定等レイアウトに起因する問題、上付き下付き文字などフォントに情報がある場合がある問題など、テキスト抽出、情報抽出の妨げになる問題が存在し、我々のほかの研究グループでも同様の困難を抱えている。一方で、LLMを用いることでPDFからのテキスト抽出が非常に効率よく行えるものもいくつか確認をすることができた。これについて、国立情報学研究所LLM-jpの学術ドメイン検討サブグループとの情報共有を開始した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

日本語症例報告は、英語症例報告と異なり、多くが主訴、現病歴、既往歴、家族歴、といったカテゴリーにて最初から構造化されているケースが多い。そのため、一度、テキストの抽出が成功すればここから、CaseSharingへのデータ移送が可能な一般化した構造化へのデータ変換には大きな困難はないと考えている。そのため、PDFからのテキスト抽出自体がこれまで大きな課題であったが、LLMをプロンプトを調整した形で運用することにより、一定のテキストはクリーンな抽出が可能となる。我々の目標としている点は、症例報告にある画像や検査データといった全ての情報を完全に抽出することでなく、最も中心的な情報となる、患者情報のテキストデータの抽出であり、この点に関して次のステップに進めるための効率化の大きな手がかりを得ることが出来ている。他の画像や検査データの取得に関しては、PDFからのマルチモーダルなデータ抽出機能が必要になると考えているが、この点は、国立情報学研究所LLM-jpのマルチモーダル検討サブグループにても開発が進行中であり、協業が開始された学術ドメインとも連動しているため、マルチモーダル技術の開発状況に応じて、当研究にも応用・展開を行う体制が確立できてたものと考えている。

Strategy for Future Research Activity

本年度の調査、および試行を踏まえた今後の研究推進の方向性は次の通りである。1: LLMによるPDFからのクリーンなテキスト抽出が可能なものと、そうで無いものの判別法を明らかとする。2:PDFからのテキスト抽出に関して、より良いプロンプトを準備したのちは、既に収集済みの約2000件の症例報告PDFに対してLLMを用いたテキスト抽出をバッチ処理する。そのために必要なシステムの開発は外注予定(実績のある業者と相談済み)。3: 抽出テキストの評価やチェックを、臨床医および医学生を動員することでクオリティのコントロールを行う。4:抽出テキストから、年齢、性別、病名などの基本情報に加え、症状・所見を抽出しHPOによるアノテーションを行う。ここでは、既に症状・所見の有無や時系列に基づいた抽出が可能なプロンプトを開発済みである。5: HPOに有る語句および無い語句を明らかとし、HPOに有る場合は、表記揺れを含めた上でのアノテーション機能の向上、HPOに無い場合は、HPOに追加して使用するオントロジーの構築も含めて構築を検討する。
これらの取り組みを通し、自動アノテーションのために必要な機能や、オントロジーを含めた新たな知識基盤の構築法の開発につなげることができ、3年次の取り組みはそのまま共有の上、横展開できる形を視野に入れて、研究開発を進めて行く方針で有る。

Causes of Carryover

大規模言語モデル技術の発展が急速であり、当初はマニュアルで行う予定であった作業を、一部自動化できる見通しが立ってきた。このため、マニュアルで行う作業を、自動化できない部分や機械による作業結果のチェックなど、出来るだけ最小限にする体制を整えるべく適宜修正を加えているため、次年度使用が生じる結果となった。
今年度においても、近年の人工知能、特に大規模言語モデル領域では数週間ごとに新たな機能やモデルが提案されるなど変化が著しいため、適宜対応できるような柔軟な体制で臨みたい。

  • Research Products

    (9 results)

All 2024 2023

All Presentation (9 results) (of which Int'l Joint Research: 6 results)

  • [Presentation] Linking NANDO/MONDO to J-Stage Case Reports2024

    • Author(s)
      Yuka tateisi, Yasunori Yamamoto, Toyofumi Fujiwara, Eisuke Dohi
    • Organizer
      Biomedical Linked Annotation Hackathon (BLAH8)
    • Int'l Joint Research
  • [Presentation] Efficient Generation of Japanese Translations for Mammalian Phenotype Using LLM and Comparative Analysis of its Relationship with Human Phenotype2024

    • Author(s)
      Terue Takatsuki, Tatsuya Kushida, Eisuke Dohi
    • Organizer
      Biomedical Linked Annotation Hackathon (BLAH8)
    • Int'l Joint Research
  • [Presentation] Disease and organ-specific HPO organization and extraction methods and their validation2024

    • Author(s)
      Eisuke Dohi, Terue Takatsuki
    • Organizer
      Biomedical Linked Annotation Hackathon (BLAH8)
    • Int'l Joint Research
  • [Presentation] 症状・所見のアノテーションにおけるオントロジーの問題. 日本語言語資源の構築と利用性の向上2024

    • Author(s)
      土肥栄祐、高月照江、建石由佳、藤原豊史、山本泰智
    • Organizer
      第30回 言語処理学会 (2024.3.11-15. ライトニングトーク)
  • [Presentation] 難病・希少疾患検索システムのための言語資源データ作成:症例報告を用いたコーパス作成2023

    • Author(s)
      土肥栄祐、建石由佳、藤原豊史、山本泰智
    • Organizer
      第11回 日本難病医療ネットワーク学会学術集会
  • [Presentation] CaseSharing: A case information management system in PubCaseFinder suitable for sharing rare disease cases2023

    • Author(s)
      Toyofumi Fujiwara, Eisuke Dohi, Jae-Moon Shin, Yuka Tateishi, Yasunori Yamamoto, Atsuko Yamaguchi, Atsuo Kikuchi.
    • Organizer
      Human Genetics Asia
    • Int'l Joint Research
  • [Presentation] How to visualize the Phenotype Diversity. A Report with Alexander’s disease case reports2023

    • Author(s)
      Eisuke Dohi, Yuka Tateishi, Jae-Moon Shin, Shinichiro Tago, Toyofumi Fujiwara, Yasunori Yamamoto
    • Organizer
      Human Genetics Asia
    • Int'l Joint Research
  • [Presentation] The issues of each database and ontology from the viewpoints of clinicians2023

    • Author(s)
      Eisuke Dohi, Yuka Tateishi, Jae-Moon Shin, Toyofumi Fujiwara, Yasunori Yamamoto
    • Organizer
      Human Genetics Asia
    • Int'l Joint Research
  • [Presentation] アレキサンダー病症例報告からの、症状多様性の可視化2023

    • Author(s)
      土肥栄祐、建石由佳、申在紋、藤原豊史、山本泰智
    • Organizer
      第64回 日本神経学会学術大会

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi