研究領域 | 情報爆発時代に向けた新しいIT基盤技術の研究 |
研究課題/領域番号 |
21013035
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
宮崎 純 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40293394)
|
研究分担者 |
植村 俊亮 奈良産業大学, 情報学部, 教授 (00203480)
波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)
|
キーワード | 情報抽出 / 情報システム / ディレクトリ・情報検索 / 構造化文書 |
研究概要 |
Web文書に代表される電子文書は近年急激に増加しており、その中から有用な情報を取得することが重要となってきている。特に文書のサイズが大きくなると、ユーザの情報要求に適合する箇所を文書中から発見することも困難となっている。 本研究では、電子文書の中でもXML文書に焦点を絞り、ユーザの情報要求に対して文書中で最も適合する一部分、すなわち部分文書の検索手法の高精度化について研究を行った。また、XML文書を処理するための問合せ言語XQueryの高性能化についても研究を行った。より具体的には、文書中における適合箇所と文書構造の関係を利用して、より良い検索結果を出力するための文書スコアリング方式を提案し評価を行った。また、複数の適合箇所が存在する場合には、それらを再構成してより適合度の高い検索結果を出力するための手法の提案を行った。前者に関しては、部分文書に含まれる検索キーワード数の割合を考慮し、従来の文書スコアリングと組み合わせることにより、検索精度が向上することが分かった。後者に関しては、隣接する複数の適合部分文書に関して、検索結果のサイズが大きくなり過ぎないように制限しつつ、同レベルの位置にある適合部分文書どうしは結合、包含関係にある適合部分文書はそれらを上位の部分文書に併合することにより、既存の手法と比較して40%以上の検索精度の改善ができることを明らかにした。さらに、文書サイズと検索結果となり得る部分文書の最大値の関係を実験的に明らかにした。
|