近年、マーケティングや交通・都市計画などで、時々刻々と変動する人々の移動軌跡を多面的に把握する必要性が出ている。このため、東京大学空間情報科学研究センターでは「人の流れプロジェクト」を提案している。本研究では、このプロジェクトから提供された人の移動軌跡データをストリームデータとみなして、人の密度が高い場所を動的に発見するアルゴリズムを開発した。類似の既存研究としてDenStreamがある。DenStreamは本アルゴリズムと同様にストリームデータを取扱うことができるが、得られるパターンは、ある地点の密度が高いとか低いなど、ある時点での静的な情報に過ぎない。しかしながら、集会場やホールなどのように、人が集まって動かない箇所から頻出パターンを抽出する必要はない。すなわち、本研究で求めようとするパターンは、動的な情報、もしくは人の密度が増えている場所、人が集まってくる場所である。例えば、ある場所に短い時間間隔で大量の人が流入すると、大きな交通問題が生じる。このような状況を発見することが本研究の目的である。 人の移動軌跡データは一日間でも大規模なものとなるため、メモリ消費を抑えてストリームデータを処理できる、オンライン型のパターン頻度計算アルゴリズムが必要となる。大規模データからの頻度計算では、頻出するアイテムのみが必要となるのに、ほとんど出現することのないアイテムまで残しておくために、メモリを大量に消費してしまうという問題がある。この問題に対して、アイテムの種類の最大値を制限する、あるいは頻度に誤差を許すなどの拡張により、頻度計測を省メモリで行う方法が提案されている。本研究では、直近に出現するアイテムに大きな重みを与え、過去に出現したアイテムには小さな重みを与える、時間を考慮したLossy countingアルゴリズムを提案して、この問題に対処している。
|