研究概要 |
本研究は,長期にわたって蓄積された肝炎患者の履歴データから,肝炎の診断や治療に関して,当該のデータベースのみならず利用可能な多様な関連情報源(医療文献データベース,医療専門家など)を相互に活用しつつ,これらを計算機技法で処理可能とすることで,この分野にとって新規性が高く有用な知見を獲得するための方法論・手法の開発を目的としている.本研究における平成16年度の成果は以下の3点に集約できる. 1.時系列抽象化アプローチの展開:多変数の時系列として表されるデータの特徴を捉えて抽象化表現を与えることで,計算機で処理可能かつ直感的に理解し易い,不規則な時系列データからの知識発見手法として従来より開発してきた時系列抽象化アプローチの抽象化パターン抽出手法(APE)としての改良および時区間関係抽出法(TRE)という新手法の展開を行った.APEが単一時系列を記述する抽象化パターンを抽出し,1患者を検査項目とその時系列パターンを表す概念値のとして表現することを基本的アプローチとしたのに対し,TREは異なる時系列における意味あるイヴェント間の関係の集合として1患者を表現することで,重要な変化が発生するタイミングに重点を置いた規則の発見を目指す.TREにおける時区間関係は,Allenが提案した時間論理に準拠するものであるが,本研究が対象とするデータの取得間隔が不規則であることから,イヴェントの重複や前後関係をAllenの13の関係に準じて区別するために,それぞれを互いに識別する境界を緩やかに設定するソフト・マッチアプローチを採用していた. 2.医療専門家との共同作業による背景知識の獲得と知識発見プロセスへの反映:医療専門家との共同作業は,単にデータから得られたパターン/モデルへの評価を得るだけでなく,医療専門家とデータマイニング実施者双方がデータ,背景知識あるいは手法の解説・議論を通じて,共通の土台を築き,課題に対する洞察を深める機会として,セッション自体が重要である.こうしたセッションによる16年度の成果としては,統計的有意性の評価を発見プロセスにおける後処理に導入したことが挙げられ,より医療専門家の関心に適う絞込みをデータから得られたルール集合に対し施すことで,評価者の負担も軽減することができた. 3.医療文献からの背景知識の獲得:医療文献に特化したテキストデータを情報源とする知識獲得については,まだ端緒についたばかりであるが,固有表現抽出手法により検査項目に関する周辺情報を獲得し,データ解析の探索空間の絞り込みや規則のフィルタリング等に利用する方式を検討している. 以上を通じた平成16年度は,臨床医が経験的にウィルスの違い以外に特別な差異は無いと考えるB型肝炎/C型肝炎をそれぞれ特徴付ける規則の候補を抽出したことが総合的成果であり,専門家による評価の段階にある.
|