研究概要 |
1 東京大学生産技術研究所喜連川研から提供を受けた,約3億のURL(ページ)と約10億のリンクを含むテキストデータを用いて,我々の提案したフィルタ法を用い,約600万のディレクトリベースドサイトを抽出した.なお,この手法の誤り率は5%以下ということも検証した.ディレクトリベースドサイトは我々が提案したサイトのモデルである. 2 Web上の情報検索手法の一つに,コミュニティ(関連するページの集合)を求めるものがある.代表的なものとしてFlakeらの最小カット法があるが,サイトを用いることが最小カット法にどれだけ有用であるかはわかっていなかった. 我々は,最小カット法がページを用いていたがゆえに内包していた問題点を明らかにした.なお,問題点は,ページを用いていたのでは「相互リンク」を正しく利用することができないことなど,全部で4つある. 我々はこれらの問題点に対する解決法を提案し,サイトを用いた上記の手法に適用した結果,精度も既存の手法の約46%から約72%へと大幅に向上させることに成功した.コミュニティの大きさも既存の手法の2倍程度となった.また,提案した解決法の効果を詳しく解析し,サイトを効果的に用いることがWeb情報発見手法に大きく役立つことを示した.この結果はWeb分野の権威ある国際会議WISE 2005に再録された.雑誌にもこの結果を投稿中である. 3 多くの問題を解く基礎となる組み合わせ最適化分野において,Vygen, Korte著の"Combinatorial Optimization"の翻訳に参加した.訳書は,「組み合わせ最適化」(訳:浅野孝夫,平田富夫,小野孝男,浅野泰仁)としてシュプリンガー・フェアラーク社から2005年に発行された.
|