研究課題/領域番号 |
26330129
|
研究機関 | 電気通信大学 |
研究代表者 |
新谷 隆彦 電気通信大学, その他の研究科, 准教授 (30604623)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | データマイニング / シーケンシャルパターン / 大規模データ |
研究実績の概要 |
27年度は時間情報を導入したシーケンシャルパターンにおいて、総継続時間を閾値とするシーケンシャルパターンを抽出する手法とその処理性能向上手法を提案した。時間情報を考慮した場合、従来のように頻度が高いシーケンシャルパターンだけではなく、多くの時間を費やしたシーケンシャルパターン(長時間シーケンシャルパターン)も重要である。人の生活などにおいては時間が限られており、1つの行動に長時間を要する場合には頻度は小さくなってしまう。シーケンシャルパターン毎にデータの中で当てはまる部分の継続時間の総和を総継続時とし、頻度が小さくとも総継続時間が長いシーケンシャルパターンを抽出することで、長時間シーケンシャルパターンの抽出を実現した。しかし、総継続時間はパターン長に対する単調減少性が成り立たないため、従来のような探索候補の枝刈りができず、処理負荷が高くなってしまう。探索候補の枝刈りではなく、頻度と総継続時間のカウント処理を部分的に省略する手法を検討し、基礎実験によって有効性を確認した。 また、26年度に検討した時間間隔、継続時間、繰り返し、ゆらぎ、時間帯を導入した多種の時間概念が混在するシーケンシャルパターン抽出の基礎手法を拡張した分散処理方式の検討を進めた。処理対象のデータを所定の時間単位で部分的に重複した形で複数に分割し、分割されたデータ単位で時間情報が混在するシーケンシャルパターン抽出を行い、時間軸上で連続するデータ分割間にまたがるシーケンシャルパターンを探索する。4ノードからなるApache Hadoopのクラスタ上に実装した評価実験を進めている段階である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
多種の時間概念が混在するシーケンシャルパターンを高速に抽出するための技術として、シーケンシャルパターンへの時間間隔、継続時間、繰り返し、ゆらぎ、時間帯を導入したシーケンシャルパターンを抽出する基礎手法を拡張した分散処理方式を検討した。データを時間軸方向で分割すること、時間軸上で連続するデータ分割間にまたがるシーケンシャルパターンを調べることによる分散処理を実現した。手法の設計と実装に時間を要したたため、実マシン上での性能評価実験を終えることができていない。 しかし、時間情報を考慮したシーケンシャルパターンにおいてより重要である総継続時間を閾値とする長時間シーケンシャルパターン抽出手法の検討を進め、処理性能を向上させる手法を提案できた。 以上から、おおむね順調な進展と判断できる。
|
今後の研究の推進方策 |
27年度に提案した長時間シーケンシャルパターン抽出技術の処理性能のさらなる改善とともに、複数の時間概念が混在するシーケンシャルパターン抽出の分散処理方式の評価として大規模データを用いた実験により有効性を確認する。 また、多種の時間概念が混在するシーケンシャルパターン抽出において総継続時間を閾値とする形への拡張を進め、時間情報を考慮した有用なシーケンシャルパターンの抽出の実現を目指す。
|
次年度使用額が生じた理由 |
旅費については、国内研究会では研究成果発表ができたが、学内業務の影響により研究情報収集と研究成果発表のための海外出張ができなかったために残額が生じた。
|
次年度使用額の使用計画 |
現在投稿を進めている国際会議などでの研究成果発表のための出張旅費に利用する。
|