• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出

Research Project

Project/Area Number 13780244
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field 計算機科学
Research InstitutionKyushu University

Principal Investigator

池田 大輔  九州大学, 情報基盤センター, 講師 (00294992)

Project Period (FY) 2001 – 2002
Project Status Completed (Fiscal Year 2002)
Budget Amount *help
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2002: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2001: ¥1,400,000 (Direct Cost: ¥1,400,000)
KeywordsWebグラフ / 特徴語抽出 / 特異値解析 / クラスタリング
Research Abstract

本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスダリング手法を構築、これを利用した検索エンジンの構築である。
今年度の実績は以下のとおりである。
1 テキスト部分の抽出
Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。前年度に、このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発実装した。本年度はさらに、これを拡張しWebページだけでなく、構造を持つ任意のテキストに適用可能なように拡張した。この結果は11月にドイツ・リューベックで行われた国際会議で発表した。
ここまでの抽出アルゴリズムは、構造化の情報を利用していなかったが、これを利用するようにした場合の抽出精度について調べ、従来のものより高精度あることを示した。この結果は、現在国際ワークショップに投稿中である。
2 Webグラフの定義拡張
Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。
さらに、前年度に収集していた上述したデータベースの実データを用いた実証実験を行った。この過程において、類似の見栄えを持つ文字列の特徴付けるアルゴリズムを開発し、グラフの作成をより高精度に行えることを確認した。この結果は、現在国際会議に投稿中である。

Report

(2 results)
  • 2002 Annual Research Report
  • 2001 Annual Research Report
  • Research Products

    (6 results)

All Other

All Publications (6 results)

  • [Publications] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proceedings of the 5th International conference on Discovery Science(Lecture Notes in Computer Science). 2534. 332-339 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] S.Hirokawa, D.Ikeda: "Visualization and Analysis of Web Graphs"Progress in Discovery Science(Lecture Notes in Computer Science). 2581. 616-627 (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] 池田大輔, 山田泰寛, 廣川左千男: "Web上の多言語テキストデータからのラッパー自動生成"九州大学情報基盤センター年報. 3(予定). (2003)

    • Related Report
      2002 Annual Research Report
  • [Publications] Daisuke Ikeda, Sachio Hirokawa: "Visualization and Analysis of Web Graphs"Progresses in Discovery Science, Lecture Notes in Computer Science(to appera).

    • Related Report
      2001 Annual Research Report
  • [Publications] Daisuke Ikeda, Yasuhiro Yamada, Sachio Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 113-127 (2001)

    • Related Report
      2001 Annual Research Report
  • [Publications] Yasuhiro Yamada, Daisuke Ikeda, Sachio Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 482-487 (2002)

    • Related Report
      2001 Annual Research Report

URL: 

Published: 2001-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi