• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

潜在的相関ルールマイニングと高次イベント系列コーパスの自動構築

Research Project

Project/Area Number 25330256
Research InstitutionUniversity of Yamanashi

Principal Investigator

岩沼 宏治  山梨大学, 総合研究部, 教授 (30176557)

Co-Investigator(Kenkyū-buntansha) 山本 泰生  山梨大学, 総合研究部, 助教 (30550793)
Project Period (FY) 2013-04-01 – 2017-03-31
Keywordsデータマイニング / 負の相関ルール / オンライン型アルゴリズム / 飽和アイテム集合 / 極小生成子 / アイテム集合系列 / データストリーム / 潜在因子発見
Outline of Annual Research Achievements

平成27年度は,負の相関ルール抽出アルゴリズムの高機能化と高速化について研究を行った.負の相関ルールは,正の相関ルールに比べて,本質的に非常に多くのルールが存在する.このため,抽出した負ルールの集合を圧縮して,コンパクトな形で保持することが極めて重要である.本研究では,まず,正のアイテム集合の無損失圧縮に用いられる飽和集合が負ルール集合の圧縮には本質的に不十分であることを示し,それに代わるものとして極小生成子を用いた負ルール集合の圧縮法を提案した.提案圧縮法の完全性(無損失性)を理論的に証明し,更に実証実験を通して密なデータから抽出した負ルール集合の圧縮に大きな効果を持つことを示した.
次に,負ルール集合の高速抽出の基盤を確立するために,多重データストリーム上の飽和アイテム集合を抽出するオンライン型ε近似計算法(2014年度人工知能学会研究会優秀賞を受賞)を,昨年に引き続いて研究を行った.この手法は漸近的集合積計算とε近似に基づく新しい計算法であるが,これまでの飽和アイテム集合のオンライン近似計算は,その全てが理論的保証の無いヒューリスティック算法であった.本年度の研究では,提案した近似抽出法の完全性と出現頻度の相対誤差がε以内に抑え込めることを示し,理論的な性能保証を世界で初めて行うことに成功した.更に,データストリームからオンライン抽出した飽和アイテム集合から極小生成子を順次生成し,その組合せから負ルールの集合を準オンライン処理で効果的に抽出する手法を開発し,実証的評価を行った.
潜在的イベントコーパスを新聞記事コーパスから抽出するためには,単語をアイテムと見なしたアイテム集合の時系列を抜き出す必要がある.本研究では,前述の研究成果を発展させ,アイテム集合の飽和系列の効率的に抽出するオンライン型ε近似計算法を提案し,試作システムを用いて性能の予備的評価を行った.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

当初予定していた負の相関ルールの高度化と高速化に関する研究は,概ね順調に進んでいる.遅れているのは,大規模テキスト時系列から潜在的イベント時系列コーパスを自動抽出するための技術開発である.具体的には,頻出なアイテム集合飽和系列の効率的な抽出法の開発,および仮説推論技術の統合などの研究が遅れている.アイテム集合飽和系列の抽出法に関しては,本年度は一定の進展があり,基本的なアルゴリズム技術の開発は完了した.しかし,大規模テキスト時系列に適用するにはまだ不十分な点が幾つかあり,より一層の工夫が必要と思われる.仮説推論技術の統合は,その前提となるデータストリームからの背景知識を抽出するための技術開発の遅れが基本的な原因である.現在は,その効果的な抽出を可能にする基本的な枠組みの検討が終了した段階であり,詳細設計と試作システムの実装および実証評価実験が残っている.

Strategy for Future Research Activity

今後はまず,アイテム集合飽和系列のオンラインε近似計算抽出法を更に効率化し,実際の新聞記事コーパス20年分程度の大規模テキストデータに適用する予定でいる.現在の実装はハッシュ等のデータ構造を利用しているが,より効果的なデータ構造を開発する必要がある.既存の先行研究では,飽和集合の格納にはプレフィックス木やその拡張構造を用いることが多いが,本研究での飽和系列の抽出法とは必ずしも相性が良いわけではない.今後,集合の包含関係の情報を明示的に持つデータ構造を開発することを予定している.
また仮説推論技術は背景知識が必要であり,それをデータストリームから自動抽出することが極めて重要である.背景知識は論理ルールの連言として記述され,その論理ルールは確信度100%の正と負の相関ルールとして定式化できる.そのため現在,極小生成子を利用した正負のルールの効率的な抽出法を考案している.今後,抽出システムを試作して実装評価を行う予定である.

Causes of Carryover

本年度の研究の成果を取りまとめて,2本の論文を学会論文誌に投稿する予定であったが,研究進捗が遅れため論文原稿の投稿が遅れてしまった.その後,そのうちの1本は既に査読が完了し,採録が決定しているが,論文誌への原稿掲載と掲載料等の支払いはまだ完了しておらず,平成28年度にずれ込む予定である.また本年度の研究成果で学会未発表のものがあるので,平成28年度の前半に発表を予定している.論文掲載料の支払いや出張旅費等の支払い平成28年度にずれこんでしまったために,次年度使用額が生じた.

Expenditure Plan for Carryover Budget

論文誌への掲載が決定している論文は,平成28年8月頃の中盤に掲載が予定されているので,その前後に掲載料を支払う予定である.また同じく,平成28年度中盤の学会発表の出張旅費その他で残額を使用予定である.

  • Research Products

    (7 results)

All 2016 2015 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Acknowledgement Compliant: 1 results) Presentation (5 results) (of which Int'l Joint Research: 2 results) Remarks (1 results)

  • [Journal Article] 負の相関ルール集合の極小生成子に基づく圧縮表現2016

    • Author(s)
      岩沼宏治, 佐生隼一, 黒岩健歩, 山本泰生
    • Journal Title

      情報処理学会論文誌

      Volume: 57 Pages: 未定

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] 漸近交差法に基づくオンライン頻出系列パターンマイニング2016

    • Author(s)
      山本 泰生,山内 夏美,岩沼 宏治
    • Organizer
      人工知能学会第100回人工知能基本問題研究会 研究会資料 SIG-FPAI-B503-17
    • Place of Presentation
      熊本市民会館(熊本市,熊本県)
    • Year and Date
      2016-03-27 – 2016-03-28
  • [Presentation] 負相関ルールを抽出する準オンラインアルゴリズム2016

    • Author(s)
      黒岩 健歩,岩沼 宏治,山本 泰生
    • Organizer
      人工知能学会第100回人工知能基本問題研究会,研究会資料 SIG-FPAI-B503-01
    • Place of Presentation
      熊本市民会館(熊本市,熊本県)
    • Year and Date
      2016-03-27 – 2016-03-28
  • [Presentation] An On-Line Approximation Algorithm for Mining Frequent Closed Itemsets Based on Incremental Intersection2016

    • Author(s)
      Koji Iwanuma, Yoshitaka Yamamoto and Shoshi Fukuda
    • Organizer
      Proceedings of 19th Extended Database Technology (EDBT2016)
    • Place of Presentation
      Bordeaux, France
    • Year and Date
      2016-03-15 – 2016-03-18
    • Int'l Joint Research
  • [Presentation] Online Pattern Mining for High-Dimensional Data Streams2015

    • Author(s)
      Yoshitaka Yamamoto and Koji Iwanuma
    • Organizer
      Proceedings of IEEE BigData2015
    • Place of Presentation
      Santa Clara, CA, USA
    • Year and Date
      2015-10-29 – 2015-11-01
    • Int'l Joint Research
  • [Presentation] 極小生成子を用いた負の相関ルール抽出の高速抽出アルゴリズム2015

    • Author(s)
      佐生隼一,岩沼宏治,山本泰生,黒岩健歩
    • Organizer
      第14回 情報科学技術フォーラム 講演論文集第2分冊, pp.59-62 (D-001)
    • Place of Presentation
      愛媛大学(松山市,愛媛県)
    • Year and Date
      2015-09-15 – 2015-09-17
  • [Remarks] 潜在的相関ルールマイニングの高次イベント系列コーパスの自動構築

    • URL

      http://www.kki.yamanashi.ac.jp/~iwanuma/Kaken2013

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi