• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

Web空間における自然な分布からの乖離現象解明

研究課題

研究課題/領域番号 16650030
研究種目

萌芽研究

配分区分補助金
研究分野 知能情報学
研究機関九州大学

研究代表者

廣川 佐千男  九州大学, 情報基盤センター, 教授 (40126785)

研究分担者 池田 大輔  九州大学, 附属図書館, 助教授 (00294992)
研究期間 (年度) 2004 – 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
3,300千円 (直接経費: 3,300千円)
2005年度: 2,200千円 (直接経費: 2,200千円)
2004年度: 1,100千円 (直接経費: 1,100千円)
キーワードインターネット高度化 / 解析・評価 / ディレクトリ・情報検索 / モデル化 / ベキ分布 / 出現頻度 / べき分布 / ジップの法則
研究概要

経済現象や社会現象と同様に、Web空間でも自然な分布が存在することが知られている。例えば、Webページ間のリンク数の頻度分布は、魚群や都市の規模分布や大企業の所得分布と同様なベキ分布に従う。一方、このような自然な多様性から乖離する多数のWebデータも存在する。それはデータベース等から半自動的に生成される同一形式のページや、最新の話題について短期間に増加するページ群である。前者では、共通パターンや反復パターンのテンプレートの出現頻度が自然な分布から乖離し、後者では特徴的キーワードの出現頻度やページ間のリンク状況が自然な分布から乖離している。本研究は、有用な情報を自動的に発見・抽出するため、Web空間における自然な分布からの乖離現象を解明をめざした。具体的には100万件規模のWebページ群を対象に、部分文字列の出現頻度の頻度分布についてベキ分布からの乖離と定型的パターンの関連ならびに、ページ間のリンク数の分布に基づき、萌芽的Webコミュニティ、特異的Webコミュニテイの特徴解明を目指した。具体的には、シラバスに代表されるシリーズ型ページ群に対し、長さnの部分文字列で出現頻度fの文字列の種類数V(n, f)の分布を解析し、共通パターン発見アルゴリズムを開発した。また評判情報に関するページ群を収集し、一般的ページにおける形容詞の出現頻度との乖離を用いて、評判情報に特徴的な単語の抽出手法を考案した。単語の出現頻度の解析によりさらに単語間の上位下位概念に対する新しい定式化である「概念グラフ」を考案した。これは文書群から決定的に決まるもので、様々な文書群に適用できることを確認している。当初のべき分布からの乖離という方向とは異なるが、オントロジー構築への新しい可能性として今後の展開が期待できる新しいテーマと考えてる。当初予定していた、リンク構造の分析については時間的にできなかった。しかし、この「概念グラフ」は文書と単語だけでなく、ページ間のリンクの解析についても適用できる。

報告書

(2件)
  • 2005 実績報告書
  • 2004 実績報告書
  • 研究成果

    (7件)

すべて 2005 2004 その他

すべて 雑誌論文 (7件)

  • [雑誌論文] Towards Multilingual Syllabus Integration2005

    • 著者名/発表者名
      Toshiro Minami, Sachio Hirokawa
    • 雑誌名

      International Journal of Information 8・2

      ページ: 281-290

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Information Extraction from Web Pages Using Semi-strucutered Data Alighment2005

    • 著者名/発表者名
      Tatsuji Kuboyama, Tetsuhiro Miyahara, Sachio Hirokawa, Eisuke Itoh
    • 雑誌名

      Proc.9th World Multi-Conference on Systemics, Cybernetics and Informatic

      ページ: 42-47

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] 部分文字列増幅法による共通パタン発見アルゴリズム2005

    • 著者名/発表者名
      池田大輔, 山田泰寛, 廣川佐地音
    • 雑誌名

      情報処理学界論文誌「数理モデル化と応用)」(TOM) 46・2

      ページ: 56-66

    • NAID

      110002914186

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] 部分文字列増幅法による共通パタン発見アルゴリズム2005

    • 著者名/発表者名
      池田大輔, 山田泰寛, 廣川佐千男
    • 雑誌名

      情報処理学会論文誌「数理モデル化と応用」 46・2

      ページ: 56-66

    • NAID

      110002914186

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004

    • 著者名/発表者名
      山田泰寛, 池田大輔, 廣川佐千男
    • 雑誌名

      情報処理学会論文誌 45・9

      ページ: 2138-2145

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] An Approach to Analyzing Correlation between Songs/Artisits Using iTMS Playlists

    • 著者名/発表者名
      Yufen Dou, Eisuke Itoh, Sachio Hirokawa, Daisuke Ikeda
    • 雑誌名

      Proc.IAWTIC (印刷中)

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Web上の高等教育用コンテンツの自動収集と抽出-シラバスの自動抽出-

    • 著者名/発表者名
      篠原正典, 廣川佐千男
    • 雑誌名

      教育システム情報学 23・3(印刷中)

    • NAID

      40015195953

    • 関連する報告書
      2005 実績報告書

URL: 

公開日: 2004-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi