研究概要 |
本年度の最初のステップは,構造化文書の文書構造および文書間に張られているリンクを意識した新しい検索単位である情報単位を抽出することである.申請者はこれまで検索システム利用者が入力する問合せに適合する部分文書を,構造化文書の文書構造から抽出する研究を続けているが,本年度はそうして抽出された部分文書に対し,リンクでつながっているという事実を用いて情報単位を同一文書内にとどまらず,複数文書間にまで拡張することを考えた. これまで申請者が行ってきた研究では,構造化文書内の各ノードに含まれている索引語に対し,文書の論理構造を基にした統計量を利用した重み付けを行っていた.これに対し,本申請における提案では,そうして重み付けされた各ノードに対し,構造化文書間に張られているリンクを考慮してノード間に新たなエッジを付与し,文書ノード間を文書構造エッジとリンク構造エッジの二種類でネットワークを構成することで,ノードに重みが付与されたネットワークをネットワーク分析手法によって分析し,クリークを発見することで新しい検索単位である情報単位を抽出した.この手法により情報単位の抽出は可能となったが,予想通り,情報単位の抽出には多くの時間を要するという問題が生じた.そのため,並行して別のWeb文書情報単位抽出技術の提案も行った.この手法はWeb文書内の各ノードに含まれている索引語に対し,影響度というWeb文書内の出現位置を考慮した重みを与え,その重みの重なりを利用して情報単位を抽出する手法である.この手法も現時点では抽出に時間を要するが,その問題となっている点は既に計算複雑性理論の研究において効率的に解けることが判明しており,それを元に効率のよいWeb文書情報単位抽出技術を開発できる可能性がある点が優位であることがわかった.
|