研究課題/領域番号 |
24500105
|
研究種目 |
基盤研究(C)
|
研究機関 | 筑波大学 |
研究代表者 |
古瀬 一隆 筑波大学, システム情報系, 講師 (10291288)
|
研究分担者 |
陳 漢雄 筑波大学, システム情報系, 講師 (60251047)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | リンク解析 |
研究概要 |
本研究では、リンク解析に基づく知識獲得手法の一種として、サーチエンジンにおける検索結果の順位付けやWebページの分類等に用いられるWebページの重要度尺度の改良を目的としている。既存の手法は現時点でのWebグラフを解析するものがほとんどであるが、本研究では過去のWebグラフの履歴も用いてその時系列を解析することにより、既存の手法では獲得できない新たな知識を獲得する手法の構築を目指している。この目的を達成するため、24年度はまず一定の期間にわたるWebのクローリングによるデータ蓄積を行った。時系列リンク解析を行うためには、それぞれのWebページが時間の経過とともにどのように入リンク数・出リンク数を変化させたかを知る必要がある。そのための機構を構築し、ページの蓄積を始めた。この作業は25年度以降も継続する予定である。 また、Webの重要度尺度についての検討も行った。リンク解析についてはこれまでにもさまざまな手法が提案されているが、それらは主として現時点でのWebグラフのみを解析の対象としている。本研究では過去のWeb グラフの履歴を用いて、各Webページの入リンク数等の増減の経緯に基づく新たな重要度尺度を定義するべく検討を続けている。これまでの検討により、時系列リンク解析において重要な要素としては入リンク数の増減と重要度のスコアの増減だけでなく、その継続性に意味があることが明らかになっている。一度にスコアを上げるページよりは、少しずつ長期間にスコアを上げるページの方が、その後のスコアが安定的である可能性が高い。今後はこの知見に基づきモデル化や定式化に取り組む予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
これまでのところ、当初計画通りにデータ蓄積やあらたな手法の検討を進めているが、まだ本格的な実験を実施できるまでのモデル化や定式化にまでは至っていない。その理由の一つには、時系列リンク解析を精度よく行うにはまだ履歴データの蓄積が不十分であることが挙げられる。25年度は履歴を取る頻度を高めて引き続き蓄積を行ない、そこから得られる知見によりさらなる検討を行う予定である。上記の理由から、備品や消耗品等の執行を当初予定よりも遅らせた。発注、納品は24年度中に済んでおりすでに研究活動に利用しているが、本学における支払い手続きの完了が25年度に入ってからとなったため、本報告では25年度における支出として計上する。
|
今後の研究の推進方策 |
25年度は、前年度に実装したデータ蓄積システムを改良し、より高い頻度で広範なデータが蓄積できるようにする。また、その結果を基に手法・機構の改良を行う。具体的には、さまざまな実データを対象に実験を行うことによって精度や計算時間などの特性について、本研究の手法と既存の重要度尺度を詳細に比較・調査し、それに基づく評価を行う。 また、25年度には、時系列リンク解析に基づく重要度尺度の問い合わせ依存型ランキング手法への応用に取り組む。この応用において実用上の課題となる問い合わせが与えられてから結果を得るまでの処理の高速化について、その詳細を検討することを計画している。具体的には、ランキングに必要となる処理のうち、問い合わせが与えられる前に計算が可能となる部分を事前に前処理として解析することで、精度を落とさずに高速化する手法を構築する。
|
次年度の研究費の使用計画 |
25年度は24年度に引き続き履歴データの蓄積および手法の検討、実験を行う。これらの取り組みには24年度中に当予算で購入し、すでに使用を開始しているサーバコンピュータを引き続き用いる(本学における支払い手続きの完了が25年度初頭となったため、本報告では25年度執行実績の一部として計上することとする)。この他、25年度の予算は、データ整理の作業のための謝金、消耗品の購入、および、これまでの成果を学会等で発表するための旅費として用いる。新たな設備備品の購入は予定していない。
|