2002 年度実績報告書

Web文書を検索するための代数的な問い合わせモデルに関する研究

研究課題

研究課題/領域番号	14780337
研究機関	倉敷芸術科学大学
研究代表者	PRADHAN SUJEET 倉敷芸術科学大学, 産業科学技術学部, 講師 (90320001)
キーワード	web代数 / 検索モデル / グルー演算 / ウェブ文書検索 / 意味情報単位 / Object Exchange Model
研究概要	1.研究経過本年度は,以下の研究を行った。・複数のWeb文書から構成されている意味情報単位の文書を検索するために必要となる演算郡を検討した。・膨大のWeb文書を構造化する目的で、本研究へObject Exchange Model (OEM)の適用の可能性について調べた。・米国のNEC研究所で行われている研究「Information Unit」との比較研究を行った。 2.研究成果今年度は、複数のキーワードによるウェブ検索において、エンドユーザーが直面している最も真剣な問題点を明確にした。具体的には、ある話題についての文書がどのような形で記述されていても,その文書を一つのまとまった意味的な情報単位として取得できることが望ましいが、既存のサーチエンジンを利用した検索結果はノード型,すなわち個々のWeb文書のリストであるため,リンクでつながった一連のWeb文書は,その文書全体(文書郡を意味情報単位として考える場合)が検索結果の対象にならないことが明らかになった。さらに、複数のWeb文書から構成されている意味情報単位の文書を検索するための演算郡の定義が理論上可能であるが、定義自体が複雑であり、その実用性が低いであることが明確になった。なぜなら、ウェブ文章の構成が一連のsequenceではなく、複雑なグラフになっているため、計算量が多くなってしまうからである。そこで、ウェブ文書の構成を単純化する必要があり、半構造データベースの世界でよく知られているOEMモデルの導入を考えている。また、意味情報単位に関する理論的な研究が十分に行われていないことが明らかになった。 3.今後の取りまとめへ向けての予定来年度取りまとめに向けて、ウェブ文書を構造化するためのモデルを考えた上で、構造化されたウェブ文書を検索するための新たな演算群を定義し、その成果を論文としてまとめる。