研究概要 |
本研究の中心となるのは,既存のデータベースからデータを入手し,その背景にある推定(予測)対象となる目的変数と多要因の関係を整理して解析用データとし,これをもとにデータの構造探索を行うデータマイニング(Data Mining)である。その中心となるのは次の2点である。 (1)解析(分析,分類)を行い,何らかの方法で傾向や関連性のモデルを発見する(2)モデル決定と発見方法を標準化または自動化する(探索法の確立)今年度は,手元にある医療事故に関するインシデントデータ及びPOSデータを用いて,CART及びMARSをデータマイニングツールとして,(1),(2)の手続きを標準化することに行いて研究を行い,以下の具体的な手順を構築した。 [ステップ1]CART/MARSによる2進木/多変量適応回帰の選択 (1)CART/MARSは頑健性があるので,原データによる判別または回帰分析を行なう. (2)最良木の選択基準として,CARTでは[交差検証法^<[1],[2]>による標準誤差+その標準偏差]内にある複数の2進木の中から,実務的な観点より考察し,枝数が少ない木を選択する.MARSでは,一般交差検証後(GCV)最小のものを最良モデルとする。なお,CARTにおいては,2進木が多くのターミナルノードを含む場合は,多変数による線形分岐についても検討する. (3)CARTでは個々のケースについてターミナルノードを特定し,ターミナルノードをダミー変数化する。 [ステップ2]CARTによる前処理データに対してパラメトリックモデルの適用(ハイブリッド化) (4)パラメトリックモデルの説明変数候補として,ダミー変数化したCARTのターミナルノードのほかに,変数重要度に列挙された変数,及び最初の分岐で競合変数となったものを採用する. (5)モデルに導入する説明変数は変数選択によって決定する. (6)説明変数に欠損がある場合には,CARTの代理変数によって目的変数の推定を行う. [ステップ3]時系列データへの対応 時系列データのモデリングで,得られた残差系列に自己相関がある場合には,推定精度を高めるため,残差部分に自己回帰モデルを適用する.
|