研究概要 |
本研究は、(1)インタネット上の様々な情報資源を柔軟にモデル化・記述して新しいサービスの枠組みを提案することと(2)様々なコンテンツの高度な利用方法(具体的にはコンテンツに対する知的な検索、集約、マイニング技術)を提案することを主たる目標としている。 前者について、Webコンテンツ(XML)の時間変化による差分情報をXMLの構造に適した形式で抽出し、効率的な格納、アクセス、配信する技術の開発を行ってきた。特に、関係DBを利用したブランチを持つXMLデータの版管理の応用技術としてアクセス権管理について研究した。複数の人がXMLデータを共有する場合には、その人の持つアクセス権限に応じて異なって見える版を提供することが重要である。我々は、ブランチを持つXMLデータの版管理を行うために考案した,木構造のラベリング手法を基本とする版識別子を拡張して,XMLリポジトリにおける柔軟で安全なアクセス管理方式を提案し、それを効率よく実装できることを示した。 後者については、Webコンテンツを対象にその差異に注目した新しいコンテンツ融合に関する研究を行った。集約による高付加価値な情報の自動生成を目指して、サーチエンジンの検索結果をWebページのもつリンク情報を基にクラスタリングする手法を提案した。リンク情報の解析には、より緻密に結びついたリンク構造にあるページ集合を見つけるのに有効な最大流アルゴリズムを用いた。検索質問とその適合ページ集合が与えられているNTCIRのデータを用いて実験を行い、提案手法が検索質問と部分的に適合するページの集約に特に有効であることを確認した。
|