本研究では、ゲノムデータベースに大量に蓄積されているテキスト情報を対象に、サーチエンジンとデータマイニングの技術を組み合わせ、統合することにより、利用者の知識発見を支援するシステムを構築することを試みた。まず、一般的なサーチエンジンの運用中に構築されるインデックス情報を知職発見の源泉とみなし、これを用いて類似文書のクラスタリングを行うことを試みた。その結果、ゲノムデータベースのように多様な専門用語を含む文書に対しては、類似性の判定に用いるキーワードを専門用語に限定する必要があることが分かった。しかし、一般に専門用語は複数のワードから成るため、その存在は直接的にはインデックスに表れない。これを解決するために、ゲノムデータベースから専門用語らしき部分を抽出し、その出現情報とターム間の包含関係を解析して、一種のオントロジーを構築した。さらに、ゲノムデータベース中に存在するリンク情報と、オントロジーが提供する言語情報を用いて、サーチエンジンの検索結晶集合の意味を高速かつ容易に提示するデータマイニングシステムを構築した。システム構築に際しては、ゲノムデータベースからの全文検索システムに相関ルール発見機能を導入することにより、利用者が着目している検索結果集合に共通かつ特有なリンク情報や言語情報を提示することができた。相関ルール発見については、当該の集合に関係するリンク情報や言語情報だけを高速に切り出し、冗長な情報をコンパクトにまとめた上でマイニングを行うことにより、大規模なゲノムデータベースに対し、Web上でも十分な応答速度で知識発見サービスを行うことが可能になった。さらに、マイニングの結果を単にリスト表示するのではなく、二次元の表の形で表示することにより、ユーザが着目するエントリ集合の意味を把握しやすくした。具体的には、マイニングの結果として得られるルールの重要度に従って各アイテム)とエントリ集合をソートすることにより、着目するエントリ集合がいくつかのグループやサブグループに分かれることを視覚的に表現した。
|