2004 Fiscal Year Annual Research Report
知識発見・学習を用いた動的情報提供サイト群からの情報獲得に関する研究
Project/Area Number |
15300027
|
Research Institution | University of Tsukuba |
Principal Investigator |
北川 博之 筑波大学, 大学院・システム情報工学研究科, 教授 (00204876)
|
Co-Investigator(Kenkyū-buntansha) |
石川 佳治 筑波大学, 大学院・システム情報工学研究科, 助教授 (80263440)
庄司 功 筑波大学, 大学院・システム情報工学研究科, 教授 (20282329)
森嶋 厚行 筑波大学, 大学院・図書館情報メディア研究科, 助教授 (70338309)
品川 徳秀 独立行政法人科学技術振興機構, 研究員 (60334215)
|
Keywords | Web / 知識発見 / 機械学習 / 情報探索 / Hidden Web / 時系列ストリーム / XML |
Research Abstract |
近年のインターネット技術の急速な進展により,様々な情報提供サイトが利用可能となっている,これらの中には,Webページ生成プログラム等を用いて動的に内包データを提供する情報生成型サイトや,連続的に新しい情報を提供する時系列ストリーム型サイトがある,本研究は,知識発見・学習機能を有機的に融合したWeb情報獲得の新しい技術の開発を目的としている。 今年度は主に以下の項目に関する基盤技術の研究開発を行った。 1.サイトプロプロファイルの獲得を目的として昨年度開発した下記手法について、より本格的な実験評価、改良、高度化研究を推進した. (1)情報生成型サイトに対する手法として,テキストデータベースを内包したHidden Webサイトからの新規トピック文書の獲得手法 (2)時系列ストリーム型サイトに対する手法として,テキストストリームが内包するトピックや異常値の検出手法 2.分類学習を利用したWebからの情報獲得,特定分野のWeb情報獲得手法について研究を推進した.特に,タキソノミーを用いたWeb検索や地理情報データベースと連携したWeb探索手法を開発した. 3.各種情報提供サイトから得られた情報の統合的利用を可能とするため,情報源のプロファイルを考慮しつつ獲得情報の統合処理を行うための方式について,性能向上や実データを用いた実証研究を行った。 4.各種情報源から提供されるバイナリデータをXMLデータにマッピングして操作するための体系を開発し、システム構築並びに検証実験を実施した. 5.時系列ストリーム型サイトから提供される情報の到着頻度とキーワードとの関連性に着目し、コンテンツ特性をプロファイル化するための手法を開発した, 6.情報生成型サイトからプライバシー保護等の目的のため生データではなくノイズを入れる等の前処理がなされたデータが提供される場合を想定し,そのような状況下での知識発見手法を開発した.
|
Research Products
(25 results)