研究概要 |
本計画研究の目標はインターネット上に存在する動的な情報源から情報を収集・統合することでデータマイニングを支援することにある.特に,インターネット上の情報源を用いて,データマイニングによって発見された知識が新規なものであるかどうかを判定する発見ルールフィルタリングの研究を中心に行っている.また,その基盤となる手法として,頻繁かつ非同期に情報が更新される分散インターネット情報源からの効率よい情報収集アルゴリズムの開発について研究している. 発見ルールフィルタリングシステムは既存のデータマイニングシステムにより発見されたルール形式の知識の中から,利用者にとって旧知のものをフィルタリングするシステムである.このフィルタリングを実現するために,インターネットからアクセス可能な情報源として生物医学文献データベースであるMEDLINEを利用している.今年度はミクロビューアプローチとマクロビューアプローチの二つの手法を提案した.ミクロビューアプローチでは発見ルールに含まれるキーワードを用いて,MEDLINEデータベースを検索し,そのヒット数に応じてフィルタリングを行おうとするものである.しかしながら,単純な文献検索はノイズが多い上に,ヒット数はキーワード数に依存することが多く,適切なフィルタリングを行うことはできなかった.マクロビューアプローチは発見ルールに含まれる全てのキーワード対で,文献検索を行い,その結果をクラスタリングする手法である.予備評価として,医学専門家へのアンケート調査を行った結果,クラスタ数が少ないはど,そのルールが既知である傾向が強いことが分かった.
|