研究課題/領域番号 |
25330256
|
研究機関 | 山梨大学 |
研究代表者 |
岩沼 宏治 山梨大学, 総合研究部, 教授 (30176557)
|
研究分担者 |
山本 泰生 山梨大学, 総合研究部, 助教 (30550793)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | データマイニング / 負の相関ルール / オンライン型アルゴリズム / 飽和アイテム集合 / 極小生成子 / アイテム集合系列 / データストリーム / 潜在因子発見 |
研究実績の概要 |
平成27年度は,負の相関ルール抽出アルゴリズムの高機能化と高速化について研究を行った.負の相関ルールは,正の相関ルールに比べて,本質的に非常に多くのルールが存在する.このため,抽出した負ルールの集合を圧縮して,コンパクトな形で保持することが極めて重要である.本研究では,まず,正のアイテム集合の無損失圧縮に用いられる飽和集合が負ルール集合の圧縮には本質的に不十分であることを示し,それに代わるものとして極小生成子を用いた負ルール集合の圧縮法を提案した.提案圧縮法の完全性(無損失性)を理論的に証明し,更に実証実験を通して密なデータから抽出した負ルール集合の圧縮に大きな効果を持つことを示した. 次に,負ルール集合の高速抽出の基盤を確立するために,多重データストリーム上の飽和アイテム集合を抽出するオンライン型ε近似計算法(2014年度人工知能学会研究会優秀賞を受賞)を,昨年に引き続いて研究を行った.この手法は漸近的集合積計算とε近似に基づく新しい計算法であるが,これまでの飽和アイテム集合のオンライン近似計算は,その全てが理論的保証の無いヒューリスティック算法であった.本年度の研究では,提案した近似抽出法の完全性と出現頻度の相対誤差がε以内に抑え込めることを示し,理論的な性能保証を世界で初めて行うことに成功した.更に,データストリームからオンライン抽出した飽和アイテム集合から極小生成子を順次生成し,その組合せから負ルールの集合を準オンライン処理で効果的に抽出する手法を開発し,実証的評価を行った. 潜在的イベントコーパスを新聞記事コーパスから抽出するためには,単語をアイテムと見なしたアイテム集合の時系列を抜き出す必要がある.本研究では,前述の研究成果を発展させ,アイテム集合の飽和系列の効率的に抽出するオンライン型ε近似計算法を提案し,試作システムを用いて性能の予備的評価を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初予定していた負の相関ルールの高度化と高速化に関する研究は,概ね順調に進んでいる.遅れているのは,大規模テキスト時系列から潜在的イベント時系列コーパスを自動抽出するための技術開発である.具体的には,頻出なアイテム集合飽和系列の効率的な抽出法の開発,および仮説推論技術の統合などの研究が遅れている.アイテム集合飽和系列の抽出法に関しては,本年度は一定の進展があり,基本的なアルゴリズム技術の開発は完了した.しかし,大規模テキスト時系列に適用するにはまだ不十分な点が幾つかあり,より一層の工夫が必要と思われる.仮説推論技術の統合は,その前提となるデータストリームからの背景知識を抽出するための技術開発の遅れが基本的な原因である.現在は,その効果的な抽出を可能にする基本的な枠組みの検討が終了した段階であり,詳細設計と試作システムの実装および実証評価実験が残っている.
|
今後の研究の推進方策 |
今後はまず,アイテム集合飽和系列のオンラインε近似計算抽出法を更に効率化し,実際の新聞記事コーパス20年分程度の大規模テキストデータに適用する予定でいる.現在の実装はハッシュ等のデータ構造を利用しているが,より効果的なデータ構造を開発する必要がある.既存の先行研究では,飽和集合の格納にはプレフィックス木やその拡張構造を用いることが多いが,本研究での飽和系列の抽出法とは必ずしも相性が良いわけではない.今後,集合の包含関係の情報を明示的に持つデータ構造を開発することを予定している. また仮説推論技術は背景知識が必要であり,それをデータストリームから自動抽出することが極めて重要である.背景知識は論理ルールの連言として記述され,その論理ルールは確信度100%の正と負の相関ルールとして定式化できる.そのため現在,極小生成子を利用した正負のルールの効率的な抽出法を考案している.今後,抽出システムを試作して実装評価を行う予定である.
|
次年度使用額が生じた理由 |
本年度の研究の成果を取りまとめて,2本の論文を学会論文誌に投稿する予定であったが,研究進捗が遅れため論文原稿の投稿が遅れてしまった.その後,そのうちの1本は既に査読が完了し,採録が決定しているが,論文誌への原稿掲載と掲載料等の支払いはまだ完了しておらず,平成28年度にずれ込む予定である.また本年度の研究成果で学会未発表のものがあるので,平成28年度の前半に発表を予定している.論文掲載料の支払いや出張旅費等の支払い平成28年度にずれこんでしまったために,次年度使用額が生じた.
|
次年度使用額の使用計画 |
論文誌への掲載が決定している論文は,平成28年8月頃の中盤に掲載が予定されているので,その前後に掲載料を支払う予定である.また同じく,平成28年度中盤の学会発表の出張旅費その他で残額を使用予定である.
|