2007 Fiscal Year Annual Research Report
スケーラビリティのある次世代XML問い合わせ処理に関する基盤的研究
Project/Area Number |
19300026
|
Research Institution | Shizuoka University |
Principal Investigator |
石川 博 Shizuoka University, 情報学部, 教授 (60326014)
|
Co-Investigator(Kenkyū-buntansha) |
福田 直樹 静岡大学, 情報学部, 助教 (30345805)
|
Keywords | 次世代サーチ / XML / フィルタリング / マイニング / 類似性 / 異種情報 / ブログ |
Research Abstract |
(1)次世代サーチエンジンの開発Web上の情報を探すために使われる検索エンジンの多くはユーザに検索結果をスコア順のリストとして返すため,リストが長い場合に求める情報を探すのはきわめて難しい。そこで検索結果をカテゴリ表示するための新しいクラスタリング方法を提案した。クラスタリングする方法として,Webページの内容(特徴語)とWebサービスの利用(上位語取得)に基づいて階層的に行う方法を提案した。試作システムを定量的に評価し,公表されている優れた結果(成田ら)とくらべ同等以上の結果を得た。 (2)XMLフィルタリング、マイニング技術の開発大規模なXML配信に利用できるフィルタリング技術としてGuptaらのXPushマシンがあるが,XPushマシン構築処理はフィルタ数に依存するためにその処理コストが高くなり,再構築がXMLシステムのスループットをいちじるしく低下させるという問題点があった。そこで変更数が少ない場合には再構築より少ない応答時間で部分的にフィルタ構築を行うサブXPushマシンを開発し,それをXMLストリームに対して適用する実験を行い,良好な結果を得た。また統計的手法によりサーチ時間の最適化を目的としたXML,データのスキーマ発見の方式の評価結果をくわしく報告した。XMLの木構造(リンク)と要素の値(テキスト,画像)という異種情報を統合した類似性の概念を導入し,予備的な実験により,有効性を確認できた。 (3)ブログマイニング技術の開発情報爆発を象徴するものの一つが,Webにおけるブログの出現である。ブログ空間でコミュニティがどう形成され,テーマがどう成長し伝播していくかを解析すれば,次世代サーチエンジンの結果の要約,世論のモニタリング,さらにWeb解析、マイニングなどへ応用できる。多視点から重要なトピックの抽出を行うための新語検出やクラスタリング手法の開発,利用者の多様な目的に合わせたサイトの発見と推薦を行うためのブログ分類手法の提案と評価を行った。
|
Research Products
(15 results)