研究課題/領域番号 |
23K19977
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 大阪大学 |
研究代表者 |
杉本 賢人 大阪大学, 大学院医学系研究科, 特任助教(常勤) (50984655)
|
研究期間 (年度) |
2023-08-31 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 自然言語処理 / 情報抽出 / 言語資源の構築 / 医療言語資源 / 画像診断レポート / リアルワールドデータ |
研究開始時の研究の概要 |
電子カルテには診療に関する様々な情報が記載されており、研究への二次利用が期待されている。しかし、実際に利用が進んでいるのは、レセプト情報、検体検査の結果など形式が構造化されており、コードが整理された一部のデータに限定されている。本研究では、フリーテキストの画像診断レポートからの情報抽出を目的とし、放射線領域の多くの臨床概念を網羅した言語資源の構築を行う。これにより、自然言語処理を用いて構造化した結果へのコーディングが可能となり、画像診断レポートの情報を用いた研究の推進に寄与できる。また、情報抽出の結果をレポートの監査など診療支援に活用することで、医療の質の向上への貢献も期待できると考えられる。
|
研究実績の概要 |
我々が構築した深層学習による構造化システムを使用して、大阪大学医学部附属病院の胸腹部CTレポートを入力し、その出力からエンティティとして抽出した放射線領域に関する用語を収集した。抽出した用語には「解剖区域・臨床所見」のようなエンティティラベルが付与されており、「解剖区域・臨床所見」について、ラベル別に用語を頻度順で整理したデータセットを構築した。「解剖区域」については、合計63,384語のユニークな表現を収集した。そこから、まず、レポートでの出現頻度が3回以上の表現のみにフィルターし、15,314語の表現を取り出した。同様に、臨床所見についても、18,791語から、出現頻度が3回以上の表現のみにフィルターし、6,424語を取り出した。しかし、これらはシステムで取り出した表現であり、実際にはそのエンティティとして正しくない表現も含まれている。そこで、人手で表現を整理する作業を行った。次に、「解剖区域」について、専門家と議論し、用語の表記ゆれを整理した概念辞書テーブルを作成した。また、「解剖区域」の概念辞書にエントリーされた概念名称には「身体部位・臓器・臓器区分・側性」といった属性情報を付与した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
システムを用いてレポートから用語を抽出する作業については順調に進んでいる。そこから、どのように用語を整理するのかについては専門家と議論するべき点も多く、また、応用事例を考えながら適宜更新が必要になる作業になるので時間がかかっているが、スケジュール上は概ね問題ないと考える。
|
今後の研究の推進方策 |
人手で整理した「解剖区域」の各表現について、作成した概念辞書テーブルとの紐づけ作業を行う。これを早い段階で完成させることで、「解剖区域」に関する言語資源の構築を完了させる。「臨床所見」に関する表現についても同様に概念辞書を作成し、必要な属性を付与して、各表現と紐づける作業を実施する予定である。
|