2011 Fiscal Year Research-status Report
ウェブリンク構造の時系列データからのマイニング―表現モデルとアルゴリズム―
Project/Area Number |
23500022
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
宇野 裕之 大阪府立大学, 理学(系)研究科(研究院), 准教授 (60244670)
|
Project Period (FY) |
2011-04-28 – 2015-03-31
|
Keywords | アルゴリズム / ウェブグラフ / 時系列データ / データマイニング / 情報基礎 / 離散最適化 |
Research Abstract |
ウェブのリンク構造は通常ウェブグラフとして表現され,ウェブ上で動作するさまざまなアルゴリズム設計の基礎的なモデルである.このウェブグラフはしかしながら,リンク構造のある瞬間のスナップショットにすぎず,動的に変化し成長を続けるリンク構造の様子を表現するには不十分である.そこで本研究の主たる目的は,変化・成長するリンク構造を時系列データとしてとらえ,1. ウェブ時系列データを表現するモデルを構築すると,および 2. そのモデルをもとに, ウェブに潜む新たな知識を時系列データから発見するためのデータマイニング・アルゴリズムを設計・開発することを目指している.平成23年度は,時系列データをいかに表現するかというモデル化そのものに取り組んだ.時系列データは,単純にはスナップショットであるウェブグラフ1つ以上からなるグラフ族と考えられるが,1つでも数百億以上のノードからなるグラフを複数保持する表現は,物理的なメモリの限界とともに,さまざまなウェブアルゴリズムの効率的な動作が期待できない.ノードやリンクの動的に変化する差分だけを保持する方法などが考えられるが,個別のアルゴリズムを想定した最適な表現方法を考案しなければならない.本研究ではウェブグラフの時系列データを,グラフとグラフの各枝が存在する時区間のペアとして定義することに成功した.さらに,ウェブグラフで重要な意味を持つとされるクリークのうち,長い時間存在するクリークを効率的に列挙する方法も考察した.これらの結果は,単にウェブのスナップショットだけでは得られない新たな知識を得た上で,時系列にもとづく将来への知見や予測の獲得,ウェブを通じた社会現象の解明などにより人類への貢献につながると考える.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度である平成23年度は,東日本大震災の影響で申請した経費が満額支給されるか不透明な状況で研究を開始した.しかしながら,当初より初年度は,ウェブグラフ時系列データの表現方法やモデル化のように理論的な研究を中心に推し進める計画であったため,それらに受ける影響は最小限に留めることができ,おおむね想定どおりに研究を実施することができた.また,翌年度以降に実施予定の計算機を用いた実験の準備として,いくつかの計算機を初年度中に導入の予定であったが,これらは平成24年度以降に導入することとし,これに対する影響も小さく留めた.
|
Strategy for Future Research Activity |
引き続き時系列データの優れた表現方法やモデル化を追及するとともに, 有用な構造を効率的に列挙するアルゴリズムの理論的な開発を目指す.さらに,ウェブ時系列データからの知識発見を目的としたデータマイニングの実用アルゴリズムの開発と,実際のウェブデータからのマイニングに取り組む.本研究での構造マイニングは,実際にウェブグラフに頻出する特徴的な構造を発見,同定し,それらの列挙により達成するアプローチをとりたい.その際,(1) 頻出構造の同定については,連続するスナップショットでの頻出構造をモデル化し,その厳密な定義を数学的に与える必要がある.また(2) 列挙アルゴリズムについては,時系列における頻出構造がグラフの部分構造という既存の概念とは異なる可能性があり,それに対応する列挙の新たな枠組みを構築した上で,個別のアルゴリズムを設計する必要がある.離散構造の列挙理論に数多くある研究成果は,設計に際し可能な範囲で用いるが,時系列データ上の頻出構造の新たな定義に応じてその可能性や限界を検証した上で,可能性を欠くものには新たなアイデアによる再設計が必要となる.このため関連する目標を同時に設定する.すなわち,ウェブのスナップショットを想定した既存アルゴリズムを,時系列データにも適用可能となる改良や再設計することである.
|
Expenditure Plans for the Next FY Research Funding |
理論的な研究のためには,最新の研究動向や成果を得るために,さまざまな関連国際会議に出席し講演を聴講することや,同分野の研究者との意見交換や討論を行うために,初年度に引き続き旅費を計上している.また,大規模な計算機実験を実施するための計算機の導入を初年度にはさし控えたため,本年度はそれらを購入し整備するための物品費も計上の予定である.
|