研究課題/領域番号 |
23500022
|
研究機関 | 大阪府立大学 |
研究代表者 |
宇野 裕之 大阪府立大学, 理学(系)研究科(研究院), 准教授 (60244670)
|
キーワード | アルゴリズム / ウェブグラフ / 時系列データ / データマイニング / 情報基礎 / 離散最適化 |
研究概要 |
ウェブのリンク構造は通常ウェブグラフとして表現され,ウェブ上で動作するさまざまなアルゴリズム設計の基礎的なモデルである.このウェブグラフはしかしながら,リンク構造のある瞬間のスナップショットにすぎず,動的に変化し成長を続けるリンク構造の様子 を表現するには不十分である.そこで本研究の主たる目的は,変化・成長するリンク構造を時系列データとしてとらえ,1. ウェブ時系列データを表現するモデルを構築すること,および 2. そのモデルをもとに, ウェブに潜む新たな知識を時系列データから発見するためのデータマイニング・アルゴリズムを設計・開発することを目指している. 平成24年度は,昨年度にひきつづき時系列データをいかに表現するかというモデル化そのものに取り組んだ.時系列データは,単純にはスナップショットであるウェブグラフ1つ以上からなるグラフ族と考えられるが,1つでも数百億以上のノードからなるグラフを複数保持する表現は,物理的なメモリの限界とともに,さまざまなウェブアルゴリズムの効率的な動作が期待できない.ノードやリンクの動的に変化する差分だけを保持する方法などが考えられるが,個別のアルゴリズムを想定した最適な表現方法を考案しなければならない.本年度は,昨年度に提案したウェブグラフの時系列データを,グラフとグラフの各枝が存在する時区間のペアとして定義する方法をさらに拡張することを考え,長い時間存在するクリークをより効率的に列挙する方法を考察した.また,それ以外の重要な構造の時系列データ上での定義も新たに手がけた.これらの結果は,単にウェブのスナップショットだけでは得られない新たな知識を得た上で,時系列にもとづく将来への知見や予測の獲得,ウェブを通じた社会現象の解明などにより人類への貢献につながると考える.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
計画2年目となる平成24年度は,初年度である23年度に引き続き,ウェブグラフ時系列データの表現方法やモデル化のように理論的な研究を中心に推し進めた.その結果,初年度に手案したモデルを理論的にさらに拡張できる可能性を発見し,その意味では当初の想定を上回る成果を期待できる.その一方で,本年度は高性能な計算機を導入し,それらの理論モデルにもとづき実データを用いた計算機実験に着手することを想定していたが,その方向性の研究に若干の遅延が発生している.これらは平成25年度以降に入ると同時に導入を開始し実験にも着手する予定である.
|
今後の研究の推進方策 |
引き続き時系列データの優れた表現方法やモデル化を追及するとともに, 有用な構造を効率的に列挙するアルゴリズムの理論的な開発を目指す.さらに,ウェブ時系列データからの知識発見を目的としたデータマイニングの実用アルゴリズムの開発と,実際のウェブデ ータからのマイニングに取り組む.本研究での構造マイニングは,実際にウェブグラフに頻出する特徴的な構造を発見,同定し,それらの列挙により達成するアプローチをとりたい.その際,(1) 頻出構造の同定については,連続するスナップショットでの頻出構造を モデル化し,その厳密な定義を数学的に与える必要がある.また(2) 列挙アルゴリズムについては,時系列における頻出構造がグラフの部分構造という既存の概念とは異なる可能性があり,それに対応する列挙の新たな枠組みを構築した上で,個別のアルゴリズムを設 計する必要がある.離散構造の列挙理論に数多くある研究成果は,設計に際し可能な範囲で用いるが,時系列データ上の頻出構造の新たな定義に応じてその可能性や限界を検証した上で,可能性を欠くものには新たなアイデアによる再設計が必要となる.このため関連 する目標を同時に設定する.すなわち,ウェブのスナップショットを想定した既存アルゴリズムを,時系列データにも適用可能となる改良や再設計することである. このため25年度は,高性能な計算機の導入と,実データを用いた計算機実験による提案手法の有効性の検証にも注力する.また実データとしてはウェブデータだけではなくバイオインフォマティクス分野のデータも時系列データとして有力であることが次第に判明してきているので,これらを実験に用いることも検討する.
|
次年度の研究費の使用計画 |
理論的な研究のためには,最新の研究動向や成果を得るために,さまざまな関連国際会議に出席し講演を聴講することや,同分野の研究者との意見交換や討論を行うために,初年度に引き続き旅費を計上している.また,大規模な計算機実験を実施するための計算機の導入を初年度にはさし控え,2年目には理論的研究を先行させて差し控えたため,本年度はそれらを購入し整備するための物品費も計上の予定である.
|