研究課題/領域番号 |
24500105
|
研究機関 | 筑波大学 |
研究代表者 |
古瀬 一隆 筑波大学, システム情報系, 講師 (10291288)
|
研究分担者 |
陳 漢雄 筑波大学, システム情報系, 講師 (60251047)
|
キーワード | リンク解析 |
研究概要 |
用いられるWebページの重要度尺度の改良を目的としている。既存の手法は現時点でのWebグラフを解析するものがほとんどであるが、本研究では過去のWebグラフの履歴も用いてその時系列を解析することにより、既存の手法では獲得できない新たな知識を獲得する手法の構築を目指している。この目的を達成するため、25年度は、24年度に実装した時系列クローラを改良し、より効率良く広範囲のデータを取得できるようにした。また、この改良型クローラを用いて、一定の期間にわたるWebのクローリングによるデータ蓄積を行った。時系列リンク解析を行うためには、それぞれのWebページが時間の経過とともにどのように入リンク数・出リンク数を変化させたかを知る必要がある。そのための機構を構築し、ページの蓄積を始めた。この作業は26年度も継続する予定である。 また、Webの重要度尺度についての検討も行った。リンク解析についてはこれまでにもさまざまな手法が提案されているが、それらは主として現時点でのWebグラフのみを解析の対象としている。本研究では過去のWeb グラフの履歴を用いて、各Webページの入リンク数等の増減の経緯に基づく新たな重要度尺度を定義するべく検討を続けている。これまでの検討により、時系列リンク解析において重要な要素としては入リンク数の増減と重要度のスコアの増減だけでなく、その継続性、特に加速度的な増減が一定期間に渡ってみられるかどうかに意味があることが明らかになっている。一度にスコアを上げるページよりは、少しずつ長期間にスコアを上げ、かつ、その上げ幅が加速度的に増加するページの方が、その後のスコアが安定的である可能性が高い。今後はこの知見に基づきモデル化や定式化に取り組む予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
これまでのところ、当初計画通りにデータ蓄積やモデル化や定式化を行ない、ある程度大きな規模のデータを用いた本格的な実験は実施できているものの、まだ実用上十分な精度が得られていない。その理由の一つには、今年度実施した改良型時系列クローラによりより多様なWebページが得られるようになったことから、現在のモデル化や定式化ではすべてのWebページの指標の動きを十分に説明できていないことにある。 また、25年度には、時系列リンク解析に基づく重要度尺度の問い合わせ依存型ランキング手法への応用に取り組んだ。この応用において実用上の課題となる問い合わせが与えられてから結果を得るまでの処理の高速化について、ランキングに必要となる処理のうち、問い合わせが与えられる前に計算が可能となる部分を事前に前処理として解析することで、精度を落とさずに高速化する手法を検討した。この手法については、高速化は十分果たせたが、精度についてはまだ改良の余地がある。26年度にはこの手法の改良についても引き続き取り組む。
|
今後の研究の推進方策 |
26年度は、前年度に実装した改良型時系列クローラを用いたデータが蓄積を継続するとともに、それを用いた実験を実施し、これまでに構築したモデル化や定式化に改良を加えることで、精度の向上を目指す。具体的には、さまざまな実データを対象に実験を行うことによって精度や計算時間などの特性について、本研究の手法と既存の重要度尺度を詳細に比較・調査し、それに基づく評価を行う。 また、時系列リンク解析に基づく重要度尺度の問い合わせ依存型ランキング手法の高速化については、25年度に構築した手法に基づく高速化は維持しつつ、より精度を向上させることに取り組む。
|
次年度の研究費の使用計画 |
研究は計画通りに進めているが、実験結果として十分な精度が得られていないため、現在手法の改良に取り組んでいる。これに伴い、成果発表の一部を25年度から26年度に移行した。 最終年度に当たる本年度は、これまでの成果に改良を加えて精度向上を果たした上で、25年度分として計画していたものも含めて、各種学会等でその発表を行う予定である。
|