研究課題/領域番号 |
16016267
|
研究機関 | 九州大学 |
研究代表者 |
廣川 佐千男 九州大学, 情報基盤センター, 教授 (40126785)
|
研究分担者 |
伊東 栄典 九州大学, 情報基盤センター, 助教授 (90294991)
池田 大輔 九州大学, 附属図書館, 助教授 (00294992)
中藤 哲也 九州大学, 情報基盤センター, 助手 (20253502)
|
キーワード | インターネット高度化 / ディレクトリ・情報検索 / パターン発見 / オントロジー / クローラー / Webマイニング / テキストマイニング |
研究概要 |
Webには膨大な数のページが存在し、各ページは様々な記述形式で記述されている。多量な同系統文書群は高品質であるというヒューリスティックに基づき、Web上の高品質文書群を効率良く発見・統合するための研究を行なった。本研究では、発見、選集、抽出、統合、の四段階に分けて研究を進めた。「発見」については、トピックに関するページを広大なWeb空間から発見する研究と、特定トピックに関する同系統文書群の持つ、文書の構造を発見する研究を行なった。前者については、自己学習型トピッククローラー、後者については、与えられた文書群に頻出する文字列を発見する「頻出パタン発見問題」とアルゴリズム開発の研究を行なった。「選集」については、トピッククローラーの実装を行なった。実装の中で、トピックに関するキーワードを自己学習するアルゴリズム、トピックページへ早く辿り着くためのリンク選定戦略についての研究を行なった。実装したクローラーは、与えられたトピックキーワードを用いて、そのトピックに関するページを効果的に収集することができる。抽出については、収集したWebページ群から「レコード」となる部分を抽出する手法について研究してきた。まず、集めた同系統文書群から、レコードの「属性名」と「属性値」となる部分を特定する手法について開発した。ここでは、頻出パタンの発見手法を援用している。なお、対象とする同系統文書群は、シリーズ型Web文書群としている。シリーズ型Web文書群とは、Webブラウザで表示させた際の見た目が類似している文書群のことである。統合については、Webから発見・選出・抽出したデータを、統合する手法についての研究を行なった。
|