2003 Fiscal Year Annual Research Report
データマイニング技術を用いた分散協調型情報フィルタリング機構
Project/Area Number |
13680482
|
Research Institution | Kyoto University |
Principal Investigator |
河野 浩之 京都大学, 情報学研究科, 助教授 (70224813)
|
Co-Investigator(Kenkyū-buntansha) |
川原 稔 愛媛大学, 総合情報メディアセンター, 助教授 (50224829)
|
Keywords | P2Pシステム / Webマイニング / Isingモデル / 情報検索システム / 性能評価 / LIRアルゴリズム / サーチエンジン / 情報フィルタリング |
Research Abstract |
現在,PageRankやHITSアルゴリズムをはじめとする多数のWeb構造マイニングの研究がなされているが,検索エンジンの性能指標となる検索精度や検索時間などのバランスを確保した上で,どれだけの規模のWebページ群を対象としたWebマイニングを行うかは大きな課題となっている.このように急増する電子化データから知識発見を行なう研究の重要性を鑑み,これまで,幾つかのデータマイニングアルゴリズムを提案し,文献情報などの半構造データを格納したWeb検索システム,ならびに,情報可視化技術を援用したインタフェース構築を試みている. そこで,検索支援システム「問答」の利用特性を解析し,より高度な分散協調型情報フィルタリング機構についての検討を深めた.具体的には,Webデータの特性を詳細に分析し,Webデータ構造に対する解析アルゴリズムを提案した.また,単純な付随属性を対象とするのではなく,XMLフォーマットに記述されるハイパーリンク周辺の構造を考慮したアルゴリズムとして提案した.さらに,現在の実装を進めることに加えて,実システムにおけるユーザの閲覧特性を分析し,情報フィルタリング技術の適用可能性について検討を進めた. 具体的には,Webリンク構造に注目したWeb構造マイニングを効率良く行うために,磁性体を表す基礎的な物理モデルであるイジングモデルを用いて,Web情報をモデル化した.そして,大規模なWebページ群を効率よく検索するリンク構造型イジング検索(Link structural Ising Retrieval)を行うLIRアルゴリズムを提案し,NTCIR情報検索システム評価用テストコレクション構築プロジェクトで利用されているWebデータを用いて,その有効性を検証した.また,提案するLIRアルゴリズムに関係する幾つかの熱力学的パラメータの変動が,検索速度や検索精度にどのような影響を与えるかを,不要ページの抑制効果の面から議論した.
|
Research Products
(6 results)
-
[Publications] 中辻真, 川原稔, 河野浩之: "トピック主導型P2P情報検索システムの提案と性能評価"電子情報通信学会論文誌. J87-D1,2. 126-136 (2004)
-
[Publications] Hiroyuki Kawano: "Ising Information Retrieval Search Model by Web Structure Mining"Proc.of the 5^<th> AEARU Workshop on Web Technology. 19-26 (2003)
-
[Publications] Tomokazu Abe, Hiroyuki Kawano: "Web structure mining based-on Ising information retrieval model"Proc.of 16^<th> International Conference on Systems Engineering. 1-6 (2003)
-
[Publications] Hiroyuki Kawano: "Web archiving strategies by using web mining techniques"Proc.of IEEE Pacific Rim Conference (PACRIM2003). (CD-ROM). (2003)
-
[Publications] 阿部友一, 河野浩之: "リンク構造に基づくWebイジング検索モデルの提案"DBSJ, Letters. 2, 1. 27-30 (2003)
-
[Publications] Makoto Nakatsuji, Minoru Kawahara, Hiroyuki Kawano: "Advanced index refinement by classifiers and distillers in P2P resource discovery"Proc.of International Conference on Intelligent Agents Web Technology and Internet Commerce' 2003. 272-285 (2003)