研究課題/領域番号 |
22K12253
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
研究代表者 |
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
|
研究分担者 |
土肥 栄祐 国立研究開発法人国立精神・神経医療研究センター, 神経研究所 疾病研究第三部, 室長 (00719213)
建石 由佳 国立研究開発法人科学技術振興機構, NBDC事業推進部, 研究員 (60439263)
藤原 豊史 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (80815176)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 日本語PDFからの情報抽出 / 疾患名抽出 / 日本語症例報告 / 日本語自然言語処理 / オントロジー |
研究開始時の研究の概要 |
全体で7000以上存在し、世界で3.5億人の患者がいる希少・難治性疾患に対しては、その性格上、症状や既往歴等の患者の状態から的確に診断できる医師が少ない。一人の医師が十分な症例数の診療経験を積むことが困難だからだ。そこで、患者の状態から尤もらしい疾患を推定するシステムが実現すれば、これらの問題への解決手段の一つになる。本研究では、本システムの構築に必須となる、症例報告から疾患を推定するために必要な情報を抽出して統制語彙と関連づけするアノテーション技術を開発する。希少・難治性疾患に関する日本語を対象とした取り組みは現状ないことから、対象は日本語で記載された文書とする。
|
研究実績の概要 |
今年度はJ-SATGEから取得したPDF形式の日本語の症例報告から必要な情報の抽出と構造化のための系の確立を目指した。 具体的には、JSTとの契約により、J-STAGE収録全文献のメタデータを取得できるようになった。そこで、これを利用して希少疾患の症例報告を選択し、対応するPDFファイルを得たうえで、そこからテキストを抽出し、さらに希少疾患検索システムCaseSharingで利用可能な形式に合わせて現病歴、家族歴等の項目で構造化することを試みた。 結果として、100件の症例報告に含まれる120症例を人手で構造化したデータセットを作成した。また、大規模言語モデルによるPDFの読み取りと構造化について、モデルの比較、プロンプトの検討などの予備実験を行った。 PDFは、文字が埋め込まれていないもの、表示はできても文字の抽出を禁じているものなどがあり、また、文字が読み取れてもヘッダー・フッターの分離、読み順の決定等レイアウトに起因する問題、上付き下付き文字などフォントに情報がある場合がある問題など、テキスト抽出、情報抽出の妨げになる問題が存在し、我々のほかの研究グループでも同様の困難を抱えている。一方で、LLMを用いることでPDFからのテキスト抽出が非常に効率よく行えるものもいくつか確認をすることができた。これについて、国立情報学研究所LLM-jpの学術ドメイン検討サブグループとの情報共有を開始した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
日本語症例報告は、英語症例報告と異なり、多くが主訴、現病歴、既往歴、家族歴、といったカテゴリーにて最初から構造化されているケースが多い。そのため、一度、テキストの抽出が成功すればここから、CaseSharingへのデータ移送が可能な一般化した構造化へのデータ変換には大きな困難はないと考えている。そのため、PDFからのテキスト抽出自体がこれまで大きな課題であったが、LLMをプロンプトを調整した形で運用することにより、一定のテキストはクリーンな抽出が可能となる。我々の目標としている点は、症例報告にある画像や検査データといった全ての情報を完全に抽出することでなく、最も中心的な情報となる、患者情報のテキストデータの抽出であり、この点に関して次のステップに進めるための効率化の大きな手がかりを得ることが出来ている。他の画像や検査データの取得に関しては、PDFからのマルチモーダルなデータ抽出機能が必要になると考えているが、この点は、国立情報学研究所LLM-jpのマルチモーダル検討サブグループにても開発が進行中であり、協業が開始された学術ドメインとも連動しているため、マルチモーダル技術の開発状況に応じて、当研究にも応用・展開を行う体制が確立できてたものと考えている。
|
今後の研究の推進方策 |
本年度の調査、および試行を踏まえた今後の研究推進の方向性は次の通りである。1: LLMによるPDFからのクリーンなテキスト抽出が可能なものと、そうで無いものの判別法を明らかとする。2:PDFからのテキスト抽出に関して、より良いプロンプトを準備したのちは、既に収集済みの約2000件の症例報告PDFに対してLLMを用いたテキスト抽出をバッチ処理する。そのために必要なシステムの開発は外注予定(実績のある業者と相談済み)。3: 抽出テキストの評価やチェックを、臨床医および医学生を動員することでクオリティのコントロールを行う。4:抽出テキストから、年齢、性別、病名などの基本情報に加え、症状・所見を抽出しHPOによるアノテーションを行う。ここでは、既に症状・所見の有無や時系列に基づいた抽出が可能なプロンプトを開発済みである。5: HPOに有る語句および無い語句を明らかとし、HPOに有る場合は、表記揺れを含めた上でのアノテーション機能の向上、HPOに無い場合は、HPOに追加して使用するオントロジーの構築も含めて構築を検討する。 これらの取り組みを通し、自動アノテーションのために必要な機能や、オントロジーを含めた新たな知識基盤の構築法の開発につなげることができ、3年次の取り組みはそのまま共有の上、横展開できる形を視野に入れて、研究開発を進めて行く方針で有る。
|