リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

研究課題

研究課題/領域番号	16016267
研究種目	特定領域研究
配分区分	補助金
審査区分	理工系
研究機関	九州大学
研究代表者	廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)
研究分担者	伊東栄典九州大学, 情報基盤センター, 助教授 (90294991) 池田大輔九州大学, 附属図書館, 助教授 (00294992) 中藤哲也九州大学, 情報基盤センター, 助手 (20253502)
研究期間 (年度)	2004 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	10,900千円 (直接経費: 10,900千円) 2005年度: 4,600千円 (直接経費: 4,600千円) 2004年度: 6,300千円 (直接経費: 6,300千円)
キーワード	インターネット高度化 / ディレクトリ・情報検索 / パターン発見 / オントロジー / クローラー / Webマイニング / テキストマイニング / 半構造データ / 情報検索 / リンク情報
研究概要	Webには膨大な数のページが存在し、各ページは様々な記述形式で記述されている。多量な同系統文書群は高品質であるというヒューリスティックに基づき、Web上の高品質文書群を効率良く発見・統合するための研究を行なった。本研究では、発見、選集、抽出、統合、の四段階に分けて研究を進めた。「発見」については、トピックに関するページを広大なWeb空間から発見する研究と、特定トピックに関する同系統文書群の持つ、文書の構造を発見する研究を行なった。前者については、自己学習型トピッククローラー、後者については、与えられた文書群に頻出する文字列を発見する「頻出パタン発見問題」とアルゴリズム開発の研究を行なった。「選集」については、トピッククローラーの実装を行なった。実装の中で、トピックに関するキーワードを自己学習するアルゴリズム、トピックページへ早く辿り着くためのリンク選定戦略についての研究を行なった。実装したクローラーは、与えられたトピックキーワードを用いて、そのトピックに関するページを効果的に収集することができる。抽出については、収集したWebページ群から「レコード」となる部分を抽出する手法について研究してきた。まず、集めた同系統文書群から、レコードの「属性名」と「属性値」となる部分を特定する手法について開発した。ここでは、頻出パタンの発見手法を援用している。なお、対象とする同系統文書群は、シリーズ型Web文書群としている。シリーズ型Web文書群とは、Webブラウザで表示させた際の見た目が類似している文書群のことである。統合については、Webから発見・選出・抽出したデータを、統合する手法についての研究を行なった。

報告書

(2件)

2005 実績報告書
2004 実績報告書

研究成果
(10件)

すべて 2005 2004 その他

すべて雑誌論文 (10件)

[雑誌論文] 部分文字列増幅法による共通パターン発見アルゴリズム2005
- 著者名/発表者名
  池田大輔, 山田泰寛, 廣川佐千男
- 雑誌名
  
  情報処理学会論文誌「数理モデル化と応用」(TOM) 46・2
  
  ページ: 42-47
- NAID
  110002914186
- 関連する報告書
  2005 実績報告書
[雑誌論文] Towards Multilingual Syllabus Integration2005
- 著者名/発表者名
  Toshiro Minami, Sachio Hirokawa
- 雑誌名
  
  International Journal of Information 8・2
  
  ページ: 281-290
- 関連する報告書
  2005 実績報告書
[雑誌論文] Information Extraction from Web Pages Using Semi-structured Data Alignment2005
- 著者名/発表者名
  Tatsuji Kuboyama, Tetsuhiro Miyahara, Sachio Hirokawa, Eisuke Itoh
- 雑誌名
  
  Proc.9th World Multi-Conference on Systemics, Cybernetics and Informatic
  
  ページ: 42-47
- 関連する報告書
  2005 実績報告書
[雑誌論文] 部分文字列増幅法による共通パタン発見アルゴリズム2005
- 著者名/発表者名
  池田大輔, 山田泰寛, 廣川佐千男
- 雑誌名
  
  情報処理学会論文誌「数理モデル化と応用」 46・2
  
  ページ: 56-66
- NAID
  110002914186
- 関連する報告書
  2004 実績報告書
[雑誌論文] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004
- 著者名/発表者名
  山田泰寛, 池田大輔, 廣川佐千男
- 雑誌名
  
  情報処理学会論文誌 45・9
  
  ページ: 2138-2145
- 関連する報告書
  2004 実績報告書
[雑誌論文] Testbed for Information Extraction from Deep Web2004
- 著者名/発表者名
  Yasuhiro Yamada, Nick Craswell, Tetsuya Nakatoh, Sachio Hirokawa
- 雑誌名
  
  Proc.13th International World Wide Web Conference, Alternate Track Papers and Posters
  
  ページ: 346-347
- NAID
  120006655068
- 関連する報告書
  2004 実績報告書
[雑誌論文] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition2004
- 著者名/発表者名
  Tetsuya Nakatoh, Yasuhiro Yamada, Sachio Hirokawa
- 雑誌名
  
  Proc.1st Asia Information Retrieval Symposium
  
  ページ: 269-272
- NAID
  120006655069
- 関連する報告書
  2004 実績報告書
[雑誌論文] Gathering Text Files Generated from Templates2004
- 著者名/発表者名
  Daisuke Ikeda, Yasuhiro Yamada
- 雑誌名
  
  Proc.VLDB Workshop on Information Integration on the Web
  
  ページ: 21-26
- NAID
  120006655277
- 関連する報告書
  2004 実績報告書
[雑誌論文] An Approach to Analyzing Correlation between Songs/Artists Using iTMS Playlists
- 著者名/発表者名
  Yufen Dou, Eisuke Itoh, Sachio Hirokawa, Daisuke Ikeda
- 雑誌名
  
  Proc.IAWTIC (印刷中)
- NAID
  120006654585
- 関連する報告書
  2005 実績報告書
[雑誌論文] Web上の高等教育用コンテンツの自動収集と抽出-シラバスの自動抽出-
- 著者名/発表者名
  篠原正典, 廣川佐千男
- 雑誌名
  
  教育システム情報学会誌 23・3(印刷中)
- NAID
  40015195953
- 関連する報告書
  2005 実績報告書

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

研究代表者

廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)

10,900千円 (直接経費: 10,900千円)

報告書

研究成果

[雑誌論文] 部分文字列増幅法による共通パターン発見アルゴリズム2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Towards Multilingual Syllabus Integration2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Information Extraction from Web Pages Using Semi-structured Data Alignment2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 部分文字列増幅法による共通パタン発見アルゴリズム2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 交代数を用いた他言語Webテキストからの共通部分特定とラッパーの生成法2004

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Testbed for Information Extraction from Deep Web2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Automatic Generation of Deep Web Wrappers based on Discovery of Repetition2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Gathering Text Files Generated from Templates2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] An Approach to Analyzing Correlation between Songs/Artists Using iTMS Playlists

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Web上の高等教育用コンテンツの自動収集と抽出-シラバスの自動抽出-

著者名/発表者名

雑誌名

NAID

関連する報告書

廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)