• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Web空間における自然な分布からの乖離現象解明

Research Project

Project/Area Number 16650030
Research Category

Grant-in-Aid for Exploratory Research

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionKyushu University

Principal Investigator

廣川 佐千男  九州大学, 情報基盤センター, 教授 (40126785)

Co-Investigator(Kenkyū-buntansha) 池田 大輔  九州大学, 附属図書館, 助教授 (00294992)
Project Period (FY) 2004 – 2005
Project Status Completed (Fiscal Year 2005)
Budget Amount *help
¥3,300,000 (Direct Cost: ¥3,300,000)
Fiscal Year 2005: ¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2004: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywordsインターネット高度化 / 解析・評価 / ディレクトリ・情報検索 / モデル化 / ベキ分布 / 出現頻度 / べき分布 / ジップの法則
Research Abstract

経済現象や社会現象と同様に、Web空間でも自然な分布が存在することが知られている。例えば、Webページ間のリンク数の頻度分布は、魚群や都市の規模分布や大企業の所得分布と同様なベキ分布に従う。一方、このような自然な多様性から乖離する多数のWebデータも存在する。それはデータベース等から半自動的に生成される同一形式のページや、最新の話題について短期間に増加するページ群である。前者では、共通パターンや反復パターンのテンプレートの出現頻度が自然な分布から乖離し、後者では特徴的キーワードの出現頻度やページ間のリンク状況が自然な分布から乖離している。本研究は、有用な情報を自動的に発見・抽出するため、Web空間における自然な分布からの乖離現象を解明をめざした。具体的には100万件規模のWebページ群を対象に、部分文字列の出現頻度の頻度分布についてベキ分布からの乖離と定型的パターンの関連ならびに、ページ間のリンク数の分布に基づき、萌芽的Webコミュニティ、特異的Webコミュニテイの特徴解明を目指した。具体的には、シラバスに代表されるシリーズ型ページ群に対し、長さnの部分文字列で出現頻度fの文字列の種類数V(n, f)の分布を解析し、共通パターン発見アルゴリズムを開発した。また評判情報に関するページ群を収集し、一般的ページにおける形容詞の出現頻度との乖離を用いて、評判情報に特徴的な単語の抽出手法を考案した。単語の出現頻度の解析によりさらに単語間の上位下位概念に対する新しい定式化である「概念グラフ」を考案した。これは文書群から決定的に決まるもので、様々な文書群に適用できることを確認している。当初のべき分布からの乖離という方向とは異なるが、オントロジー構築への新しい可能性として今後の展開が期待できる新しいテーマと考えてる。当初予定していた、リンク構造の分析については時間的にできなかった。しかし、この「概念グラフ」は文書と単語だけでなく、ページ間のリンクの解析についても適用できる。

Report

(2 results)
  • 2005 Annual Research Report
  • 2004 Annual Research Report
  • Research Products

    (7 results)

All 2005 2004 Other

All Journal Article (7 results)

  • [Journal Article] Towards Multilingual Syllabus Integration2005

    • Author(s)
      Toshiro Minami, Sachio Hirokawa
    • Journal Title

      International Journal of Information 8・2

      Pages: 281-290

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Information Extraction from Web Pages Using Semi-strucutered Data Alighment2005

    • Author(s)
      Tatsuji Kuboyama, Tetsuhiro Miyahara, Sachio Hirokawa, Eisuke Itoh
    • Journal Title

      Proc.9th World Multi-Conference on Systemics, Cybernetics and Informatic

      Pages: 42-47

    • Related Report
      2005 Annual Research Report
  • [Journal Article] 部分文字列増幅法による共通パタン発見アルゴリズム2005

    • Author(s)
      池田大輔, 山田泰寛, 廣川佐地音
    • Journal Title

      情報処理学界論文誌「数理モデル化と応用)」(TOM) 46・2

      Pages: 56-66

    • NAID

      110002914186

    • Related Report
      2005 Annual Research Report
  • [Journal Article] 部分文字列増幅法による共通パタン発見アルゴリズム2005

    • Author(s)
      池田大輔, 山田泰寛, 廣川佐千男
    • Journal Title

      情報処理学会論文誌「数理モデル化と応用」 46・2

      Pages: 56-66

    • NAID

      110002914186

    • Related Report
      2004 Annual Research Report
  • [Journal Article] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004

    • Author(s)
      山田泰寛, 池田大輔, 廣川佐千男
    • Journal Title

      情報処理学会論文誌 45・9

      Pages: 2138-2145

    • Related Report
      2004 Annual Research Report
  • [Journal Article] An Approach to Analyzing Correlation between Songs/Artisits Using iTMS Playlists

    • Author(s)
      Yufen Dou, Eisuke Itoh, Sachio Hirokawa, Daisuke Ikeda
    • Journal Title

      Proc.IAWTIC (印刷中)

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Web上の高等教育用コンテンツの自動収集と抽出-シラバスの自動抽出-

    • Author(s)
      篠原正典, 廣川佐千男
    • Journal Title

      教育システム情報学 23・3(印刷中)

    • NAID

      40015195953

    • Related Report
      2005 Annual Research Report

URL: 

Published: 2004-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi