2001 Fiscal Year Annual Research Report
XMLで表現されるマルチメディアデータの効果的検索法に関する研究
Project/Area Number |
12780309
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
|
Keywords | XML / 電子文書 / 情報検索 / 検索単位 / 評価値の統合手法 |
Research Abstract |
これまで提案されてきた文書検索は,文書全体を検索単位としてそれに含まれている文字列を特徴として扱っていた.しかし,近年,XML文書のような構造を持った文書やPDF, MPEG-7のような複数のメディアを扱った文書が多くなり,それに伴ってそれら文書を検索する際に従来の文書検索技術をそのまま適用することが難しいという問題が発生していた. 本研究では,従来の文書検索のように一つの文書から一つの特徴量を抽出するのではなく,文書からは複数のさまざまな特徴量が抽出できると考え,XML文書検索の場合は文書内容とその構造から,PDFやMPEG-7文書検索の場合はその文書に含まれるそれぞれのメディアのコンテンツから特徴量を抽出し,それらを最適な単位で検索する手法を提案した.具体的には,XML文書検索の場合,XML文書の特徴量を最も忠実に抽出できる単位が存在するので,その単位を文書構造から推定する手法を確立した.また同時に,抽出された単位と利用者の入力した問合せの類似度計算の手法を提案し,その計算手法をXML文書検索に適用することで10%程度の検索精度の向上した.さらに,PDF文書検索の場合は,抽出された複数のメディアの特徴量を等価に扱わなければ双方の特徴を利用した検索が実現できないため,それら特徴量の正規化手法の提案を行った.この手法が確立されたことで,昨年度提案した複数特徴量を統合した検索手法の検索精度が最大25%程度向上した.
|
Research Products
(5 results)
-
[Publications] 波多野 賢治, 渡邉 正裕 他: "情報検索技術を用いた部分文書構造の自動抽出"情報処理学会論文誌:データベース. 40・SIG3(TOD10). 47-59 (2001)
-
[Publications] 鈴木 優, 波多野 賢治 他: "複数のメディアで構成された電子文書の検索手法"情報処理学会論文誌:データベース. 40・SIG10(TOD11). 11-21 (2001)
-
[Publications] 絹谷 弘子, 波多野 賢治 他: "XML文書の文書構造と内容を用いた部分文書の抽出手法"情報処理学会論文誌:データベース. (2002)
-
[Publications] K.Hatano et al.: "Extraction of Partial XML Documents Using IR-based Structure and Contents Analysis"Proc.of the International Workshop on Data Semantics in Web Information Systems. 189-202 (2001)
-
[Publications] Y.Suzuki et al.: "Extraction and Integration of XML Document Features on Wireless Environment"Proc.of the First International Workshop on Wireless Information Systems. (2002)