• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

グラフ構造解析を用いたハイパーテキストの順位づけ,クラスタリング,特徴語抽出

研究課題

研究課題/領域番号 13780244
研究種目

若手研究(B)

配分区分補助金
研究分野 計算機科学
研究機関九州大学

研究代表者

池田 大輔  九州大学, 情報基盤センター, 講師 (00294992)

研究期間 (年度) 2001 – 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
2,100千円 (直接経費: 2,100千円)
2002年度: 700千円 (直接経費: 700千円)
2001年度: 1,400千円 (直接経費: 1,400千円)
キーワードWebグラフ / 特徴語抽出 / 特異値解析 / クラスタリング
研究概要

本研究の目的は、リンク構造を持つ大量のWebページの順位づけとクラスダリング手法を構築、これを利用した検索エンジンの構築である。
今年度の実績は以下のとおりである。
1 テキスト部分の抽出
Webページはコンテンツ以外にもマークアップのための情報や構造化のための情報を含む。前年度に、このようなファイルからコンテンツ部分のみを抜きだすアルゴリズムを開発実装した。本年度はさらに、これを拡張しWebページだけでなく、構造を持つ任意のテキストに適用可能なように拡張した。この結果は11月にドイツ・リューベックで行われた国際会議で発表した。
ここまでの抽出アルゴリズムは、構造化の情報を利用していなかったが、これを利用するようにした場合の抽出精度について調べ、従来のものより高精度あることを示した。この結果は、現在国際ワークショップに投稿中である。
2 Webグラフの定義拡張
Webグラフとは、Webページとリンク情報の構造を表わすものである。これをキーワードやパタンも表現可能なようにいくつかの定義の拡張を行なった。
さらに、前年度に収集していた上述したデータベースの実データを用いた実証実験を行った。この過程において、類似の見栄えを持つ文字列の特徴付けるアルゴリズムを開発し、グラフの作成をより高精度に行えることを確認した。この結果は、現在国際会議に投稿中である。

報告書

(2件)
  • 2002 実績報告書
  • 2001 実績報告書
  • 研究成果

    (6件)

すべて その他

すべて 文献書誌 (6件)

  • [文献書誌] Y.Yamada, D.Ikeda, S.Hirokawa: "Automatic Wrapper Generation for Multilingual Web Resources"Proceedings of the 5th International conference on Discovery Science(Lecture Notes in Computer Science). 2534. 332-339 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] S.Hirokawa, D.Ikeda: "Visualization and Analysis of Web Graphs"Progress in Discovery Science(Lecture Notes in Computer Science). 2581. 616-627 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 池田大輔, 山田泰寛, 廣川左千男: "Web上の多言語テキストデータからのラッパー自動生成"九州大学情報基盤センター年報. 3(予定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Daisuke Ikeda, Sachio Hirokawa: "Visualization and Analysis of Web Graphs"Progresses in Discovery Science, Lecture Notes in Computer Science(to appera).

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Daisuke Ikeda, Yasuhiro Yamada, Sachio Hirokawa: "Eliminating Useless Parts in Semi-structured Documents using Alternation Counts"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 113-127 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Yasuhiro Yamada, Daisuke Ikeda, Sachio Hirokawa: "SCOOP : A Record Extractor without Knowledge on Input"Proceedings of the 4th International Conference on Discovery Science, Lecture Notes in Artificial Intelligence. 2226. 482-487 (2002)

    • 関連する報告書
      2001 実績報告書

URL: 

公開日: 2001-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi