研究実績の概要 |
我々が構築した深層学習による構造化システムを使用して、大阪大学医学部附属病院の胸腹部CTレポートを入力し、その出力からエンティティとして抽出した放射線領域に関する用語を収集した。抽出した用語には「解剖区域・臨床所見」のようなエンティティラベルが付与されており、「解剖区域・臨床所見」について、ラベル別に用語を頻度順で整理したデータセットを構築した。「解剖区域」については、合計63,384語のユニークな表現を収集した。そこから、まず、レポートでの出現頻度が3回以上の表現のみにフィルターし、15,314語の表現を取り出した。同様に、臨床所見についても、18,791語から、出現頻度が3回以上の表現のみにフィルターし、6,424語を取り出した。しかし、これらはシステムで取り出した表現であり、実際にはそのエンティティとして正しくない表現も含まれている。そこで、人手で表現を整理する作業を行った。次に、「解剖区域」について、専門家と議論し、用語の表記ゆれを整理した概念辞書テーブルを作成した。また、「解剖区域」の概念辞書にエントリーされた概念名称には「身体部位・臓器・臓器区分・側性」といった属性情報を付与した。
|