• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

自動的部分情報抽出方式に基づく知識Webアプリケーションの連携・統合法の研究

Research Project

Project/Area Number 20500026
Research InstitutionTokyo Institute of Technology

Principal Investigator

徳田 雄洋  Tokyo Institute of Technology, 大学院・情報理工学研究科, 教授 (30111644)

Co-Investigator(Kenkyū-buntansha) 野呂 智哉  東京工業大学, 大学院・情報理工学研究科, 助教 (80401553)
KeywordsWebアプリケーション / Webサービス関数 / 統合・連携 / 部分情報抽出
Research Abstract

平成21年度は,主に2つのテーマについて研究成果を得た.1つ目は,動的コンテンツも含めた部分情報抽出法と連携手法の開発,2つ目はRSSに基づき構造変動に左右されないニュース記事の本文抽出法の開発を行った.
従来の部分情報抽出は静的に存在するテキスト,静止画,動画,音声などを対象とし,スクリプトが動的に生成する部分の抽出は対象外であったが,指定した部分以外を非表示にすることにより,これらのスクリプトが動的に生成する部分を抽出する手法を開発した.ユーザは抽出したい部分を指定するだけで,システムは指定部分を検索し,表示する部分と表示しない部分を決定する.また,抽出した部分の間のデータの受け渡しの定義方式の導入により,複数の抽出部分を連携動作させることが可能となった.さらに,従来の静的コンテンツの抽出手法と組み合わせることにより,柔軟な部分情報抽出と抽出した部分の間の連携が可能となった.
また,RSSを利用したニュース記事の本文抽出手法を開発した.RSSから取得したタイトルを利用して記事本文の位置を特定し,抽出する.関連手法は機械学習等を利用して事前にレイアウトを分析し,抽出箇所を決定するが,サイトごとに学習・分析が必要であり,また,突然のレイアウト変更に対応できないという問題がある.本手法は対象ページのレイアウトに依存しないため,異なるレイアウトを持つニュースサイトに対しても同じ手法を適用可能であり,さらに突然のレイアウト変更があっても継続して本文抽出が可能という特徴を持つ.

  • Research Products

    (4 results)

All 2009

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

  • [Journal Article] An Automatic Web News Article Contents Extraction System Based on RSS Feeds2009

    • Author(s)
      Hao Han
    • Journal Title

      Journal of Web Engineering 8(3)

      Pages: 268-284

    • Peer Reviewed
  • [Presentation] A Layout-Independent Web News Article Contents Extraction Method Based on Relevance Analysis2009

    • Author(s)
      Hao Han
    • Organizer
      9th International Conference on Web Engineering
    • Place of Presentation
      San Sebastian, Spain
    • Year and Date
      2009-06-26
  • [Presentation] Towards Flexible Integration of Any Parts from Any Web Applications for Personal Use2009

    • Author(s)
      Hao Han
    • Organizer
      1st International Workshop on Lightweight Integration on the Web
    • Place of Presentation
      San Sebastian, Spain
    • Year and Date
      2009-06-23
  • [Presentation] A New Partial Information Extraction Method for Personal Mashup Construction2009

    • Author(s)
      Junxia Guo
    • Organizer
      19th Conference on Information Modelling and Knowledge Bases
    • Place of Presentation
      Maribor, Slovenia
    • Year and Date
      2009-06-02

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi