2004 Fiscal Year Annual Research Report

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

Research Project

Project/Area Number	16016267
Research Institution	Kyushu University
Principal Investigator	廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)
Co-Investigator(Kenkyū-buntansha)	伊東栄典九州大学, 情報基盤センター, 助教授 (90294991) 池田大輔九州大学, 附属図書館, 助教授 (00294992) 中藤哲也九州大学, 情報基盤センター, 助手 (20253502)
Keywords	Webマイニング / 半構造データ / 情報検索 / パターン発見 / クローラー / リンク情報
Research Abstract	リンク情報は重要性,信頼性の尺度として有効であることが知られている。しかしリンク情報は,意味や粒度の同一性を保証するものではない。一方,Webページ内のコンテンツは意味に応じて特定パターンや階層構造として表現される。例えば,料理のレシピや大学のシラバス・ページなどは,共通のテンプレートで記述され,共通の一覧ページからリンクされている。本研究では,リンク情報と半構造性を利用して高品質Webコンテンツを大量に効率よく発見し,抽出と統合する手法の研究を行ない,次のような成果を得た。 (1)データ発見と頻出パタンマイニング従来の研究では,入力として構造的な類似性を持つWebページ群が仮定されている。本研究では,これらを,クローラー等が収集した大量のWebページからを発見するアルゴリズムを提案した。 (2)シリーズ型Web文書収集クローラーWebマイニングの応用として,大学のシラバスを収集・統合し,検索できるシステムの研究を行なっている。そのため,少数のキーワードを与えるだけで,トピックに関するシリーズ型のページを効率良く集めるWeb文書収集クローラーを開発し,大学のシラバス,料理のレシピ集などを集める実験を行い,その効果を評価した。 (3)複雑な検索サイトに関する調査Webインターフェースを持つデータベースは検索サイトと呼ばれ,一般のWebページを大幅に上回る量の情報が存在すると言われる。これらを統合するために本年度は,これら検索サイトのインターフェースを実現しているフォーム情報の分析を行なった。

Research Products
(5 results)

All 2005 2004

All Journal Article (5 results)

[Journal Article] 部分文字列増幅法による共通パタン発見アルゴリズム2005
- Author(s)
  池田大輔, 山田泰寛, 廣川佐千男
- Journal Title
  
  情報処理学会論文誌「数理モデル化と応用」 46・2
  
  Pages: 56-66
[Journal Article] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004
- Author(s)
  山田泰寛, 池田大輔, 廣川佐千男
- Journal Title
  
  情報処理学会論文誌 45・9
  
  Pages: 2138-2145
[Journal Article] Testbed for Information Extraction from Deep Web2004
- Author(s)
  Yasuhiro Yamada, Nick Craswell, Tetsuya Nakatoh, Sachio Hirokawa
- Journal Title
  
  Proc.13th International World Wide Web Conference, Alternate Track Papers and Posters
  
  Pages: 346-347
[Journal Article] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition2004
- Author(s)
  Tetsuya Nakatoh, Yasuhiro Yamada, Sachio Hirokawa
- Journal Title
  
  Proc.1st Asia Information Retrieval Symposium
  
  Pages: 269-272
[Journal Article] Gathering Text Files Generated from Templates2004
- Author(s)
  Daisuke Ikeda, Yasuhiro Yamada
- Journal Title
  
  Proc.VLDB Workshop on Information Integration on the Web
  
  Pages: 21-26

2004 Fiscal Year Annual Research Report

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

Principal Investigator

廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)

Research Products

[Journal Article] 部分文字列増幅法による共通パタン発見アルゴリズム2005

Author(s)

Journal Title

[Journal Article] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004

Author(s)

Journal Title

[Journal Article] Testbed for Information Extraction from Deep Web2004

Author(s)

Journal Title

[Journal Article] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition2004

Author(s)

Journal Title

[Journal Article] Gathering Text Files Generated from Templates2004

Author(s)

Journal Title

廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)