医学用語の概念による自動分類の対象として、主要な医学用語である病名用語に対するICD10(国際疾病分類第10版)分類コードの自動コーディングをターゲットとして、用語の表記からの意味解析および分類への自動マッピングの研究を行った。ICD10の既知のコーディングルールをプログラム処理が可能な文字列正規表現に変換して自動コーディングを行う手法では、コーディングの正答率が2-30パーセントと不十分であった。そのため病名用語をコードが既知の病名とそれに連結する修飾語要素に分解し、要素(病名と修飾語)の組み合わせとICD10コードの関係をパターン化し、自動コーディングに利用可能な規則性を抽出する方針とした。既存の標準病名用語集に収載された約19000の病名用語を、病名と修飾語の要素に分解することにより、9600通りのICD10コード変化パターンを抽出し、自動分類に利用可能なコードパターンの規則性の存在について検証を行った。本研究年度末の時点では、一般的なコードパターン規則性の把握には至っていないが、部分的にいくつかの特徴的なパターンを見出すことにより、自動コーディングシステムの基礎となるデータを抽出した。XML Webサービスのリモートメソッド提供するサーバー(URL http://www.dis.h.u-tokyo.ac.jp/byomei/webservices)においては、病名用語のICD10自動分類などの用語処理を行う分散メソッドを実験的に公開するとともに、検体端末などのクライアントからそれらを利用するアプリケーションを開発し実用性に関して検証を行った。
|