<背景と目的> 背景としてはヒトゲノムデータベースから何らかの意味のあるルールを明示的に抽出するには、いったいどのような方法が現実的であろうか?というのが出発点である。 <検討結果> 今現在、プログラムが可能なニューラルネットワークからのルール抽出(rule extraction)アルゴリズムを用いて実際の肝胆道系疾患のデータベース(536人分)からルールの抽出が実際に現実的な時間で行えるかを、Sun Ultra 80(4 cpu)1GB memory(速度約10Gflops)で行ってみた。 対象にしたのは以下の6つのアルゴリズムであり、上記データベースでのテスト(未学習)データを対象に時間と精度を比較する。 FERNN 時間 4:01(分) 精度 82.3% Neuro Linear 時間 45:34(分) 精度 90.2% Mlp21n 時間 5:52(分) 精度 68.2% Abe's Method 時間 0.08(秒) 精度 77.9% BIO-RE 時間 123.54(秒) 精度 70.78% Partial-RE 時間 10.20(秒) 精度 76.68% 上記を見るとAbe's Methodが群を抜いて高速なことがわかるが、この方法は、いわゆるrule extractionを行っているとは言い難く、ルールは得られたものの、前件部がn次元直方体にはいっているなら等の直感的なでないものになってしまう。上記の中ではPartial-RE、BIO-REも良さそうに見えるが、アルゴリズムの後処理(カルノ-図をルールに変換する)が難しく、結局FERNNが総合的に見て良好である。 また、上記のアルゴリズムのどれが容易に並列化(Parallelization)かという点が重要だが、今年度は研究時間と超並列計算機の手当ができなかったので今後の検討課題としたい。
|