2010 Fiscal Year Annual Research Report
情報爆発時代の構造化文書の超高精度検索とその実現
Publicly Offered Research
Project Area | Cyber Infrastructure for the Information-explosion Era |
Project/Area Number |
21013035
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宮崎 純 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40293394)
|
Co-Investigator(Kenkyū-buntansha) |
植村 俊亮 奈良産業大学, 情報学部, 教授 (00203480)
波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)
|
Keywords | 情報抽出 / 情報システム / ディレクトリ・情報検索 / 構造化文書 / XML |
Research Abstract |
Web文書に代表される電子文書は近年急激に増加しており、その中から有用な情報を取得することが重要となってきている。特に文書のサイズが大きくなると、ユーザの情報要求に適合する箇所を文書中から発見することも困難となっている。本研究では、特に電子文書の中でもXML文書に焦点を絞り、ユーザの情報要求に対して文書中で最も適合する一部分、すなわち部分文書の検索手法の高精度化について研究を行ってきた。 既存の手法では、各部分文書ごとのスコア値に基づいて、高いスコア値の部分文書のみをランキングしてユーザに提示していたが、高いスコア値を持つ部分文書の周辺の適合部分文書を取りこぼしてしまい、その結果検索精度を落とす原因となっていた。そこで、高いスコア値を持つ部分文書の周辺を探索し、ある程度適合すると判断される周辺の部分文書を統合するとともに、統合した結果、サイズが変更された部分文書のスコア値を調整する手法を提案した。この提案手法を用いて、国際ワークショップINEX2010のコンペティションに参加したところ、世界二位の検索精度を達成し、提案手法の高い有効性を実証することができた。 引き続いてXML部分文書検索に関して、検索精度を落とさず検索処理効率を上げるために、XML文書の経路式に基づく索引語の大域重み付けの既存手法であるIPFを改良し、類似した経路式をある規則によりまとめることにより、識別すべき部分文書のクラス数を減らす手法を提案した。その中で、ISFと呼ぶ提案手法はクラス数を75%削減したにも関わらず検索精度はIPFとほぼ同じであることが判明した。これにより、ISFが効率の良い高精度検索処理に有効であることを明らかにした。
|