研究概要 |
インターネット上には現在膨大な量の情報が蓄積されているが,一人の利用者が扱える量や範囲は限られている.アクティブマイニングはコンピュータが直接インターネット情報源にアクセスすることにより,利用者にとって有用な情報を検索したり,さらに新たな知識を発見するものである. アクティブ情報収集システムはアクティブマイニングの前段階として,頻繁に更新される動的なインターネット情報源から情報を収集し,それらを統合する.アクティブ情報収集システムは情報収集部と情報統合部からなり,それぞれのプロトタイプを開発した. 情報抽出プロトタイプは特定の情報源を監視し,その更新が生じた場合はその差分を抽出する.差分の抽出にはAT&Tで開発されたHtmlDiffシステムを利用している.ただし単純な差分だけでは,抽出された情報の文脈が失われてしまうので,Webページのタグの構造を解析することにより,文脈を表す部分も同時に抽出するようにしている. 情報統合プロトタイプとしては航空便空席照会システムの開発を行った.本プロトタイプの特徴は以下のとおりである. ・インターネット上に存在する国内航空三社のホームページから航空便の空席情報を収集する.この実現にはクエリ(搭乗日,出発空港,到着空港)の送出と結果ページから空席に関する情報抽出ラッパーをJavaにより記述している. ・空席照会は出発地から到着地への直行便だけでなく,収集した情報を統合することにより,乗り継ぎ便に関する情報も提供する.またこの乗り継ぎは異なった航空会社間の乗り継ぎも扱っている. ・扱う情報を静的なもの(航空機の経路やダイヤのように更新の頻度が少ない安定した情報)と動的なもの(航空機の空席情報のように頻繁に更新される情報)に分類し,静的な情報を利用することにより動的な情報の収集の効率化を図っている.
|