研究領域 | 情報爆発時代に向けた新しいIT基盤技術の研究 |
研究課題/領域番号 |
21013035
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
理工系
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
宮崎 純 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40293394)
|
研究分担者 |
植村 俊亮 奈良産業大学, 情報学部, 教授 (00203480)
波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)
|
研究期間 (年度) |
2009 – 2010
|
研究課題ステータス |
完了 (2010年度)
|
配分額 *注記 |
5,000千円 (直接経費: 5,000千円)
2010年度: 2,500千円 (直接経費: 2,500千円)
2009年度: 2,500千円 (直接経費: 2,500千円)
|
キーワード | 情報抽出 / 情報システム / ディレクトリ・情報検索 / 構造化文書 / XML |
研究概要 |
Web文書に代表される電子文書は近年急激に増加しており、その中から有用な情報を取得することが重要となってきている。特に文書のサイズが大きくなると、ユーザの情報要求に適合する箇所を文書中から発見することも困難となっている。本研究では、特に電子文書の中でもXML文書に焦点を絞り、ユーザの情報要求に対して文書中で最も適合する一部分、すなわち部分文書の検索手法の高精度化について研究を行ってきた。 既存の手法では、各部分文書ごとのスコア値に基づいて、高いスコア値の部分文書のみをランキングしてユーザに提示していたが、高いスコア値を持つ部分文書の周辺の適合部分文書を取りこぼしてしまい、その結果検索精度を落とす原因となっていた。そこで、高いスコア値を持つ部分文書の周辺を探索し、ある程度適合すると判断される周辺の部分文書を統合するとともに、統合した結果、サイズが変更された部分文書のスコア値を調整する手法を提案した。この提案手法を用いて、国際ワークショップINEX2010のコンペティションに参加したところ、世界二位の検索精度を達成し、提案手法の高い有効性を実証することができた。 引き続いてXML部分文書検索に関して、検索精度を落とさず検索処理効率を上げるために、XML文書の経路式に基づく索引語の大域重み付けの既存手法であるIPFを改良し、類似した経路式をある規則によりまとめることにより、識別すべき部分文書のクラス数を減らす手法を提案した。その中で、ISFと呼ぶ提案手法はクラス数を75%削減したにも関わらず検索精度はIPFとほぼ同じであることが判明した。これにより、ISFが効率の良い高精度検索処理に有効であることを明らかにした。
|