研究概要 |
現在,PageRankやHITSアルゴリズムをはじめとする多数のWeb構造マイニングの研究がなされているが,検索エンジンの性能指標となる検索精度や検索時間などのバランスを確保した上で,どれだけの規模のWebページ群を対象としたWebマイニングを行うかは大きな課題となっている.このように急増する電子化データから知識発見を行なう研究の重要性を鑑み,これまで,幾つかのデータマイニングアルゴリズムを提案し,文献情報などの半構造データを格納したWeb検索システム,ならびに,情報可視化技術を援用したインタフェース構築を試みている. そこで,検索支援システム「問答」の利用特性を解析し,より高度な分散協調型情報フィルタリング機構についての検討を深めた.具体的には,Webデータの特性を詳細に分析し,Webデータ構造に対する解析アルゴリズムを提案した.また,単純な付随属性を対象とするのではなく,XMLフォーマットに記述されるハイパーリンク周辺の構造を考慮したアルゴリズムとして提案した.さらに,現在の実装を進めることに加えて,実システムにおけるユーザの閲覧特性を分析し,情報フィルタリング技術の適用可能性について検討を進めた. 具体的には,Webリンク構造に注目したWeb構造マイニングを効率良く行うために,磁性体を表す基礎的な物理モデルであるイジングモデルを用いて,Web情報をモデル化した.そして,大規模なWebページ群を効率よく検索するリンク構造型イジング検索(Link structural Ising Retrieval)を行うLIRアルゴリズムを提案し,NTCIR情報検索システム評価用テストコレクション構築プロジェクトで利用されているWebデータを用いて,その有効性を検証した.また,提案するLIRアルゴリズムに関係する幾つかの熱力学的パラメータの変動が,検索速度や検索精度にどのような影響を与えるかを,不要ページの抑制効果の面から議論した.
|