2003 Fiscal Year Annual Research Report
Web文書を検索するための代数的な問い合わせモデルに関する研究
Project/Area Number |
14780337
|
Research Institution | Kurashiki University of Science and the Arts |
Principal Investigator |
PRADHAN SUJEET 倉敷芸術科学大学, 産業科学技術学部, 助教授 (90320001)
|
Keywords | ウェブ文書 / 構造化文書 / 意味情報単位 / 順序付け木構造データモデル / 代数的な問い合わせモデル |
Research Abstract |
1.研究経過 本年度は,以下の研究を行った。複数のキーワードによるWeb検索において,検索結果は利用者が望んでいる意味的な情報単位とは必ずしも一致しないという問題を明確にした上で、その問題を解決できる問い合わせモデルの開発について研究が行われた。その問い合わせモデルの開発することにあたって,代数的な演算群の定義が行われ,問い合わせ処理の計算量を調べた。その結果,それらの演算群の定義が理論上可能であるが,定義自体が複雑であり,計算量が急速に増え,その実用性が低いであることが明らかになった。また,近年のWeb文書は画像,音楽,動画等のような様々なマルチメディアデータを包含したものが多数存在していて,現行のデータモデルや検索モデルでは,それらのメディアデータを個別に処理していかなければならず,メディア同士の関係はその場合失われるという問題点があることを新たに発見した。そこで,関連するWeb文書群,あるいは複合メディアから構成されているWeb文書は順序付け木構造として捉え,木の各ノードはそれぞれの情報単位を反映するモデル提案を行い,このようなモデルから適切な部分を検索できるよう代数的な問い合わせモデルの開発を行った。 2.研究成果 ・複数のWeb文書から構成されている意味情報単位の文書を検索するための演算群を定義を行い,その演算群を実際にWeb文書を検索する時に適用する際に必要とされる計算量が明確になった。 ・膨大のWeb文書をグラフ構造で表現する場合は演算の定義が複雑になると共に計算量も急速に増えることが明らかになったため,複数の関連する複合のメディアを含むWeb文書の構造化を行い,それを順序付け木構造としてモデル化することによってWeb文書群をより簡単に表現することができた。 ・構造化されたWeb文書群から適切な部分を検索できる演算群の定義が行われ,それらの演算が実現可能であることが証明できた。 3.現在,上記に述べた成果をまとめたものを英論文2件を国際学会VLDB04及びDEXA04に投稿中である.また,本年度末までには情報処理学会の雑誌にもこの研究に関する論文を投稿する予定である。
|