• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

Research Project

Project/Area Number 16016267
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionKyushu University

Principal Investigator

廣川 佐千男  九州大学, 情報基盤センター, 教授 (40126785)

Co-Investigator(Kenkyū-buntansha) 伊東 栄典  九州大学, 情報基盤センター, 助教授 (90294991)
池田 大輔  九州大学, 附属図書館, 助教授 (00294992)
中藤 哲也  九州大学, 情報基盤センター, 助手 (20253502)
Project Period (FY) 2004 – 2005
Project Status Completed (Fiscal Year 2005)
Budget Amount *help
¥10,900,000 (Direct Cost: ¥10,900,000)
Fiscal Year 2005: ¥4,600,000 (Direct Cost: ¥4,600,000)
Fiscal Year 2004: ¥6,300,000 (Direct Cost: ¥6,300,000)
Keywordsインターネット高度化 / ディレクトリ・情報検索 / パターン発見 / オントロジー / クローラー / Webマイニング / テキストマイニング / 半構造データ / 情報検索 / リンク情報
Research Abstract

Webには膨大な数のページが存在し、各ページは様々な記述形式で記述されている。多量な同系統文書群は高品質であるというヒューリスティックに基づき、Web上の高品質文書群を効率良く発見・統合するための研究を行なった。本研究では、発見、選集、抽出、統合、の四段階に分けて研究を進めた。「発見」については、トピックに関するページを広大なWeb空間から発見する研究と、特定トピックに関する同系統文書群の持つ、文書の構造を発見する研究を行なった。前者については、自己学習型トピッククローラー、後者については、与えられた文書群に頻出する文字列を発見する「頻出パタン発見問題」とアルゴリズム開発の研究を行なった。「選集」については、トピッククローラーの実装を行なった。実装の中で、トピックに関するキーワードを自己学習するアルゴリズム、トピックページへ早く辿り着くためのリンク選定戦略についての研究を行なった。実装したクローラーは、与えられたトピックキーワードを用いて、そのトピックに関するページを効果的に収集することができる。抽出については、収集したWebページ群から「レコード」となる部分を抽出する手法について研究してきた。まず、集めた同系統文書群から、レコードの「属性名」と「属性値」となる部分を特定する手法について開発した。ここでは、頻出パタンの発見手法を援用している。なお、対象とする同系統文書群は、シリーズ型Web文書群としている。シリーズ型Web文書群とは、Webブラウザで表示させた際の見た目が類似している文書群のことである。統合については、Webから発見・選出・抽出したデータを、統合する手法についての研究を行なった。

Report

(2 results)
  • 2005 Annual Research Report
  • 2004 Annual Research Report
  • Research Products

    (10 results)

All 2005 2004 Other

All Journal Article (10 results)

  • [Journal Article] 部分文字列増幅法による共通パターン発見アルゴリズム2005

    • Author(s)
      池田大輔, 山田泰寛, 廣川佐千男
    • Journal Title

      情報処理学会論文誌「数理モデル化と応用」(TOM) 46・2

      Pages: 42-47

    • NAID

      110002914186

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Towards Multilingual Syllabus Integration2005

    • Author(s)
      Toshiro Minami, Sachio Hirokawa
    • Journal Title

      International Journal of Information 8・2

      Pages: 281-290

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Information Extraction from Web Pages Using Semi-structured Data Alignment2005

    • Author(s)
      Tatsuji Kuboyama, Tetsuhiro Miyahara, Sachio Hirokawa, Eisuke Itoh
    • Journal Title

      Proc.9th World Multi-Conference on Systemics, Cybernetics and Informatic

      Pages: 42-47

    • Related Report
      2005 Annual Research Report
  • [Journal Article] 部分文字列増幅法による共通パタン発見アルゴリズム2005

    • Author(s)
      池田大輔, 山田泰寛, 廣川佐千男
    • Journal Title

      情報処理学会論文誌「数理モデル化と応用」 46・2

      Pages: 56-66

    • NAID

      110002914186

    • Related Report
      2004 Annual Research Report
  • [Journal Article] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004

    • Author(s)
      山田泰寛, 池田大輔, 廣川佐千男
    • Journal Title

      情報処理学会論文誌 45・9

      Pages: 2138-2145

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Testbed for Information Extraction from Deep Web2004

    • Author(s)
      Yasuhiro Yamada, Nick Craswell, Tetsuya Nakatoh, Sachio Hirokawa
    • Journal Title

      Proc.13th International World Wide Web Conference, Alternate Track Papers and Posters

      Pages: 346-347

    • NAID

      120006655068

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition2004

    • Author(s)
      Tetsuya Nakatoh, Yasuhiro Yamada, Sachio Hirokawa
    • Journal Title

      Proc.1st Asia Information Retrieval Symposium

      Pages: 269-272

    • NAID

      120006655069

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Gathering Text Files Generated from Templates2004

    • Author(s)
      Daisuke Ikeda, Yasuhiro Yamada
    • Journal Title

      Proc.VLDB Workshop on Information Integration on the Web

      Pages: 21-26

    • NAID

      120006655277

    • Related Report
      2004 Annual Research Report
  • [Journal Article] An Approach to Analyzing Correlation between Songs/Artists Using iTMS Playlists

    • Author(s)
      Yufen Dou, Eisuke Itoh, Sachio Hirokawa, Daisuke Ikeda
    • Journal Title

      Proc.IAWTIC (印刷中)

    • NAID

      120006654585

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Web上の高等教育用コンテンツの自動収集と抽出-シラバスの自動抽出-

    • Author(s)
      篠原正典, 廣川佐千男
    • Journal Title

      教育システム情報学会誌 23・3(印刷中)

    • NAID

      40015195953

    • Related Report
      2005 Annual Research Report

URL: 

Published: 2004-04-01   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi