2013 Fiscal Year Annual Research Report
離散データ構造からの知識発見手法を用いた公共事業入札の分析
Project/Area Number |
23500185
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
Co-Investigator(Kenkyū-buntansha) |
福元 健太郎 学習院大学, 法学部, 教授 (50272414)
|
Keywords | データマイニング / グラフマイニング / 公共事業入札 |
Research Abstract |
最終年度は、(1)公共事業入札データを想定した大規模ネットワークデータからの時系列遷移構造の抽出のための要素技術の開発・実装、および、(2)情報開示請求等により入手した公共事業入札データのデータベース化を進めた。 (1)の要素技術の開発については、まず、生成モデルを用いた大量の時系列データの抽象化のための手法を開発した。一般に、時系列イベントは抽象度が低く、生データのイベント列から状況を読み取ることが困難である。そこで、隠れマルコフモデルを用いてイベントの分節化と状態遷移推定により、解釈容易な抽象度の高い状態遷移モデルを生成した。この手法を、時系列に沿ったスライディングウインドウに適用し、時系列状態遷移モデルを構築した。状態遷移モデルは、ラベル付きの有効グラフ構造とみなせるため、この時系列有向グラフに対するグラフカーネルを作成し、時系列でのグラフ構造の変化をカーネル主成分分析によって可視化した。この手法により、グラフ構造の時系列変化を観察することが可能になった。さらに、生成モデルによらずに、明示的に構造変化を検出して、時系列のコミュニティ構造の変化を分析する手法を開発した。この手法では、時系列ネットワークのスナップショット毎に、階層的コミュニティ抽出を行い、階層構造から、時系列木構造を作成する。次に、木構造間編集距離抽出により、コミュニティの階層構造の変化を検出する。この手法を用いて、コミュニティの継続、発生、消滅等を検出することができた。 (2)の公共事業入札データのデータベース化については、OCRによるデータ読み取りと、データ洗浄、データベースシステムへの登録作業を行った。本研究プロジェクトにおいては、10県分の入札データを過去5年にわたってデータベース化することができた。プロジェクト終了後もデータベース化については継続してゆく予定である。
|