2023 Fiscal Year Research-status Report
Building a Medical Language Resource Toward Secondary Use of Radiology Reports
Project/Area Number |
23K19977
|
Research Institution | Osaka University |
Principal Investigator |
杉本 賢人 大阪大学, 大学院医学系研究科, 特任助教(常勤) (50984655)
|
Project Period (FY) |
2023-08-31 – 2025-03-31
|
Keywords | 自然言語処理 / 情報抽出 / 言語資源の構築 |
Outline of Annual Research Achievements |
我々が構築した深層学習による構造化システムを使用して、大阪大学医学部附属病院の胸腹部CTレポートを入力し、その出力からエンティティとして抽出した放射線領域に関する用語を収集した。抽出した用語には「解剖区域・臨床所見」のようなエンティティラベルが付与されており、「解剖区域・臨床所見」について、ラベル別に用語を頻度順で整理したデータセットを構築した。「解剖区域」については、合計63,384語のユニークな表現を収集した。そこから、まず、レポートでの出現頻度が3回以上の表現のみにフィルターし、15,314語の表現を取り出した。同様に、臨床所見についても、18,791語から、出現頻度が3回以上の表現のみにフィルターし、6,424語を取り出した。しかし、これらはシステムで取り出した表現であり、実際にはそのエンティティとして正しくない表現も含まれている。そこで、人手で表現を整理する作業を行った。次に、「解剖区域」について、専門家と議論し、用語の表記ゆれを整理した概念辞書テーブルを作成した。また、「解剖区域」の概念辞書にエントリーされた概念名称には「身体部位・臓器・臓器区分・側性」といった属性情報を付与した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
システムを用いてレポートから用語を抽出する作業については順調に進んでいる。そこから、どのように用語を整理するのかについては専門家と議論するべき点も多く、また、応用事例を考えながら適宜更新が必要になる作業になるので時間がかかっているが、スケジュール上は概ね問題ないと考える。
|
Strategy for Future Research Activity |
人手で整理した「解剖区域」の各表現について、作成した概念辞書テーブルとの紐づけ作業を行う。これを早い段階で完成させることで、「解剖区域」に関する言語資源の構築を完了させる。「臨床所見」に関する表現についても同様に概念辞書を作成し、必要な属性を付与して、各表現と紐づける作業を実施する予定である。
|
Causes of Carryover |
GPUマシンを搭載した計算機およびその周辺機器の調達に時間がかかってしまい購入ができなかった。現在は業者を選定し、すでに見積もりも進めており、購入の見通しがたっている。
|