2005 年度実績報告書

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

研究課題

研究課題/領域番号	16016267
研究機関	九州大学
研究代表者	廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)
研究分担者	伊東栄典九州大学, 情報基盤センター, 助教授 (90294991) 池田大輔九州大学, 附属図書館, 助教授 (00294992) 中藤哲也九州大学, 情報基盤センター, 助手 (20253502)
キーワード	インターネット高度化 / ディレクトリ・情報検索 / パターン発見 / オントロジー / クローラー / Webマイニング / テキストマイニング
研究概要	Webには膨大な数のページが存在し、各ページは様々な記述形式で記述されている。多量な同系統文書群は高品質であるというヒューリスティックに基づき、Web上の高品質文書群を効率良く発見・統合するための研究を行なった。本研究では、発見、選集、抽出、統合、の四段階に分けて研究を進めた。「発見」については、トピックに関するページを広大なWeb空間から発見する研究と、特定トピックに関する同系統文書群の持つ、文書の構造を発見する研究を行なった。前者については、自己学習型トピッククローラー、後者については、与えられた文書群に頻出する文字列を発見する「頻出パタン発見問題」とアルゴリズム開発の研究を行なった。「選集」については、トピッククローラーの実装を行なった。実装の中で、トピックに関するキーワードを自己学習するアルゴリズム、トピックページへ早く辿り着くためのリンク選定戦略についての研究を行なった。実装したクローラーは、与えられたトピックキーワードを用いて、そのトピックに関するページを効果的に収集することができる。抽出については、収集したWebページ群から「レコード」となる部分を抽出する手法について研究してきた。まず、集めた同系統文書群から、レコードの「属性名」と「属性値」となる部分を特定する手法について開発した。ここでは、頻出パタンの発見手法を援用している。なお、対象とする同系統文書群は、シリーズ型Web文書群としている。シリーズ型Web文書群とは、Webブラウザで表示させた際の見た目が類似している文書群のことである。統合については、Webから発見・選出・抽出したデータを、統合する手法についての研究を行なった。

研究成果
(5件)

すべて 2005 その他

すべて雑誌論文 (5件)

[雑誌論文] 部分文字列増幅法による共通パターン発見アルゴリズム2005
- 著者名/発表者名
  池田大輔, 山田泰寛, 廣川佐千男
- 雑誌名
  
  情報処理学会論文誌「数理モデル化と応用」(TOM) 46・2
  
  ページ: 42-47
[雑誌論文] Towards Multilingual Syllabus Integration2005
- 著者名/発表者名
  Toshiro Minami, Sachio Hirokawa
- 雑誌名
  
  International Journal of Information 8・2
  
  ページ: 281-290
[雑誌論文] Information Extraction from Web Pages Using Semi-structured Data Alignment2005
- 著者名/発表者名
  Tatsuji Kuboyama, Tetsuhiro Miyahara, Sachio Hirokawa, Eisuke Itoh
- 雑誌名
  
  Proc.9th World Multi-Conference on Systemics, Cybernetics and Informatic
  
  ページ: 42-47
[雑誌論文] An Approach to Analyzing Correlation between Songs/Artists Using iTMS Playlists
- 著者名/発表者名
  Yufen Dou, Eisuke Itoh, Sachio Hirokawa, Daisuke Ikeda
- 雑誌名
  
  Proc.IAWTIC (印刷中)
[雑誌論文] Web上の高等教育用コンテンツの自動収集と抽出-シラバスの自動抽出-
- 著者名/発表者名
  篠原正典, 廣川佐千男
- 雑誌名
  
  教育システム情報学会誌 23・3(印刷中)

2005 年度 実績報告書

リンク情報とWebデータの半構造性を融合した高品質コンテンツ・マイニング

研究代表者

廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)

研究成果

[雑誌論文] 部分文字列増幅法による共通パターン発見アルゴリズム2005

著者名/発表者名

雑誌名

[雑誌論文] Towards Multilingual Syllabus Integration2005

著者名/発表者名

雑誌名

[雑誌論文] Information Extraction from Web Pages Using Semi-structured Data Alignment2005

著者名/発表者名

雑誌名

[雑誌論文] An Approach to Analyzing Correlation between Songs/Artists Using iTMS Playlists

著者名/発表者名

雑誌名

[雑誌論文] Web上の高等教育用コンテンツの自動収集と抽出-シラバスの自動抽出-

著者名/発表者名

雑誌名

2005 年度実績報告書

廣川佐千男九州大学, 情報基盤センター, 教授 (40126785)