既存の医学用語リソースとして、医学用語シソーラス第5版(医学中央雑誌刊行会)、ICD10対応電子カルテ用標準病名マスター(MEDIS-DC)を利用し、日本語形態素解析システムJumanの辞書を構築した後に、東京大学医学部附属病院で蓄積されている放射線診断報告書を処理し、未定義語として類別された用語から医学用語を再度辞書に登録した。ここで医学用語(すべて名詞)に対して「疾患名称・解剖学的部位名称・放射線所見・その他」の医属性を与えることにより、医学用語シソーラスを構築した。これらの医学用語の一部はMeSHとICD10に対応しているため、これらを介してUMLSとの対応付けを行うことができた。収載見出し語数は117252語、対応する概念数は41549個であった。 Jumanによる処理では、病名や部位名などを正しく切り出すことができないため、切り出された文字列を再度連接することによって正しい医学用語であることを確認することができるように再確認用医学辞書を構築した。この辞書の見出し語数は2800語であった。 次にこの辞書を用いて再度放射線診断報告書を解析し、ひとつの文章中で使われる医学用語と動詞のペアとして代表的な構文パターンを仮定して動詞の解析を行い、診断名とその肯定および否定陳述の抽出を行った結果、5000件の報告書中1468件の肯定と72件の否定を抽出することができた。しかし構築した医学用語シソーラスとSNOMED-CTなどとの対応付けが十分でないため、放射線診断報告書を処理するために必要な意味ネットワークの構築は部分的なものとなったことが成績の悪さの原因であり、今後放射線診断報告書の認識成績を向上させるためには日本語医学用語とSNOMED-CTとの対応付けを行うことが必要である。
|