研究課題/領域番号 |
19024058
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
宮崎 純 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40293394)
|
研究分担者 |
植村 俊亮 奈良産業大学, 情報学部, 教授 (00203480)
波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)
中島 伸介 京都産業大学, コンピュータ理工学部, 准教授 (90399535)
|
キーワード | 情報抽出 / XQuery / 構造化文書 / blog / ディレクトリ・情報検索 |
研究概要 |
本研究の目的である大規模構造化文書からの高度情報抽出を達成するために、その基礎技術を確立すべく、本年度は、(1)高精度XML文書情報検索、(2)Blog空間のリンク構造の解析に関する二課題を中心に取り組んだ。 高精度XML文書情報検索に関しては、XML文書の部分文書を高精度に検索するために、構造問合せ(CASトピック)に焦点を絞り、検索精度を上げるための研究を行った。基本的な考え方は、検索対象となるXML文書の文書構造を利用した重みづけの概念を、検索質問中で指定されている文書構造に利用して実現するものであり、この手法をTF-IAFと名付けた。TF-IAFは従来の手法よりも適合する文書を更に絞り込むことができ、検索精度を向上させることができる。これにより、国際ワークショップINEX2007のCASトピックカテゴリに参加の46システム中で第一位の成果を納めた。 一方、Blog空間のリンク構造の解析に関しては、Blog文書検索をXML文書検索の枠組みに包含させるための取り組みとして、その基本的な特徴を調査すべく、Blog空間の持つ特有の性質について解析を行った。その結果、Blog空間中のトラックバックのほとんどが空であるが、空のトラックバックにより緩やかなコミュニティ形成が行われていることを明らかにした。
|