研究概要 |
従来の機械学習ではデータベースからの分類知識の獲得が中心で、専門家の学習手法との大きな違いは、専門家が分類規則のみならず、他の種類の診断規則も獲得しているところにあると考えられる。本研究では、専門家の三種類の診断知識を可変ラフ集合理論に基づいて形式化し、これらの規則を導出するアルゴリズムを開発し、実際の医療データベースに適用、他の分類知識のみを獲得する機械学習システムと比較した。 RHINOSとそのルールの定式化 ここでは、松村らの提唱したRHINOSでのexclusive rule(除外診断),inclusive rule(鑑別診断),disease image(合併症診断)の3種類のルールの使用を試みた。 ・正確度と被覆度ルールに付与する基本的な指標はルールの正確度(accuracy):前者はある同値関係をみたす標本がDという集合に含まれる割合及び被覆度(coverage):をみたし、Dに属する標本がD全体の中に含まれる割合を示している。 ・可変精度ラフ集合モデルによるルールの定式化我々のモデルは可変精度ラフ集合モデルの枠組みで記述することが可能である。まず、一般的に我々の用いている確率的なルールは次のように定義できる:。ただし、で、αは正確度、κは被覆度を示す。ここで、をある同値関係、Dをあるクラスdに所属する集合とする以上の議論に基づけば、上記3種類のルールは次のように記述できる:(1)Exclusive Rule:上記ルールで被覆度が1.0のもの。(2)Inclusive Rule:上記ルールでであるもの。(3)Disease Image:上記ルールのなかで(1),(2)の条件を満たさないもの。 PRIMEROSE-REX 上記ルールは次のような2種類のアルゴリズムで動作するまず各[属性=値]の対からexclusive rule、inclusive rule、diseaseimageで使用されるであろう対を探索するExhaustive Search)により、各疾患での各ルール用の対を選択する。 評価 我々は本システムを頭痛・顔面痛に関する症例データベース1477を使って、本システムの評価を以下の手法で試みた。(1)まず訓練標本をランダムに二つの標本S1とT1に分ける。(2)S1によって、ルールの導出を行うとともに、導出されたルールのaccuracyをT1によって推定する(3)以上の手法を100回にわたって反復し、S1による推定確信度とT1による推定確信度をt-検定により比較した。また得られたルールの性能をAQ15,CART等のシステムと本システムの分類精度を比較するとともに、エキスパートシステムRHINOSとも比較した(表1)。Exclusive rule とDisease imageの正確度とは、それぞれ除外すべき疾患を正確に除外した割合と合併症と診断すべき疾患を正確に合併症の候補とした割合を示している。表1に示されたごとく、inclusive ruleに関しては、RHINOSに比べ性能が劣っていたものの、他のルールに関しては同等の性能が得られ、inclusive ruleの分類精度は他の学習システムによって得られたルールとほぼ同等の性能を実現できた。
|