研究課題/領域番号 |
18700035
|
研究種目 |
若手研究(B)
|
配分区分 | 補助金 |
研究分野 |
ソフトウエア
|
研究機関 | 芝浦工業大学 |
研究代表者 |
鈴木 徹也 芝浦工業大学, システム工学部, 講師 (00323824)
|
研究期間 (年度) |
2006 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
3,700千円 (直接経費: 3,700千円)
2007年度: 500千円 (直接経費: 500千円)
2006年度: 3,200千円 (直接経費: 3,200千円)
|
キーワード | webクローリング / メタデータ生成 / 位置情報 / アルゴリズム / Webクローリング |
研究概要 |
本研究の目的は、さまざまな情報に効率よく位置(緯度・経度)を結びつけるのに必要なソフトウェアやそこで用いるアルゴリズムを開発し、位置指向検索の検索対象を容易に生成できるようになることである。 平成19年度は、位置情報を持つWebページの収集戦略(クローリング戦略)とその実行基盤に関する研究を行った。クローリング戦略では、ハイパーリンクで指し示されたWebページに位置情報があるか否かを予測する技術が重要である。先行研究では、ハイパーリンクが設定Webページ上の文字列(アンカーテキスト)に注目して予測を行っていた。本研究では、それに加えて、アンカーテキストのWebページを効率よく収集できることを、実験により確認した。 Webページ収集プログラム(Webクローラ)の実行基盤に関して、分散計算機環境へジョブを投入するためのパッチ言語とその処理系を開発した。そのバッチ言語は汎要スクリプト言語Rubyを基にしている。このバッチ言語により、可読性と再利用性のあるバッチファイルを記述できる。その結果、互いに協調する複数個のWebクローラを、容易に実行できるようになった。 以上2つの成果により、大量のWebページに対して高速に位置情報を付与できるようになった。 開発したバッチ言語の処理系は下記Webサイト上に公開した。 http://www.tslab.se.shibaura-it.ac.jp/index.php/Software/rxgrid
|