1995 Fiscal Year Annual Research Report
遺伝アルゴリズムに基づく次世代科学データベースからの知識発見
Project/Area Number |
07780337
|
Research Institution | Kyushu University |
Principal Investigator |
坂本 憲広 九州大学, 医学部, 講師 (00253485)
|
Keywords | 遺伝アルゴリズム / 科学データベース / オブジェクト指向技術 / 機械学習 / 知識発見 / 概念学習 / 次世代データベース |
Research Abstract |
次世代科学データベースには、柔軟なデータ表現、知識の自動抽出、データ及び知識の視覚化などの機能が求められている。本研究では、オブジェクト指向データベースを用いて構築された科学データベースにおいて、遺伝的アルゴリズムを応用した機械学習による知識発見の枠組みを開発することを目的とした。大量のデータから仮説となる知識を生成する機構には高速なアルゴリズムが求められるため、本研究では属性と一値学習法による概念学習システムに注目した。しかし従来の概念学習システムはオブジェクト指向データベースとの親和性が低く、そのままではデータベース解析には用いる事ができない。 そのため、先ず本研究では新しくメッセージ一値学習法を提案しオブジェクト指向技術を用いて概念学習システムを開発した。この新しい概念学習システムはオブジェクト指向データベースとの親和性が高く、処理速度も高く、200属性、400ケースから成る医学データベースを約10秒で解析することができた。 この概念学習システムは解析結果である仮説知識を決定木あるいはプロダクションルールの形で表現するが、科学データの様な複雑なデータの解析結果は100以上の枝を持つ巨大な決定木となり、ユーザが抽出された仮説の意味を容易に理解するのを妨げている。そこで、本研究ではX Windowツールキットを用いて決定木を視覚化するツールを構築し、さらに、入り組んだ決定木を簡略化して表示する機能を追加した。 概念学習システムは高速にテスト用のデータ集合から仮説を生成するが、あるデータ集合からは常に同じ決定木しか導出することができない。また雑音に弱く、医学データの様に不正確な情報を含み得るデータベースの解析には有効ではない。そこで、本研究では遺伝的アルゴリズムを応用して、様々なテスト用データ集合について、種々の属性の組み合わせで決定木を生成し、それらを数百世代に渡り比較し最も良い結果を示す仮説を発見する枠組みを構築した。これを肝癌の再発に関する医学データベースの解析に応用したところ、概念学習システムだけでは生成された決定木の信頼性は60%前後であったが、遺伝的アルゴリズムとの組み合わせによって75%前後にまで上昇させることに成功した。
|
Research Products
(1 results)