研究課題/領域番号 |
17K00315
|
研究機関 | 日本大学 |
研究代表者 |
尾崎 知伸 日本大学, 文理学部, 准教授 (40365458)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | データマイニング / グラフマイニング / 表現学習 / 分散表現 |
研究実績の概要 |
本研究課題は,深層学習と頻出パターン発見を橋渡しする基礎技術を開発することで,両者を深化させることを目的としている。具合的には自己符号化器に代表される分散表現学習技術を用いて各頻出パターンを多様なベクトル空間へと展開することで,低品質かつ理解困難なパターンの大量生成という頻出パターンが本質的に抱える問題を解決することを目指す。これらのことを目的に,本年度は(1)分散表現技術を利用した頻出パターンの特徴付け,(2)GPUを用いたノイズ許容頻出飽和部分グラフ発見の高速化,(3)単一区間イベント系列を対象としたパターン列挙技術の開発を行った。 分散表現技術を利用した頻出パターンの特徴付けに関しては,パターンの包含関係を考慮しつつ,トランザクションを文書,トランザクションに含まれる頻出パターンを単語にそれぞれ対応付けて単語埋め込み技術を援用し,頻出パターンの分散表現を獲得する技術を開発した。またベクトル空間上で,特徴点抽出や例外発見,ネットワーク分析を展開することで,パターンの外延(構成要素)と内包(支持集合)を用いる既存手法とは異なる視点で特徴的なパターンを特定する手法を開発した。 一方,GPUによるノイズ許容頻出飽和部分グラフ発見の高速化に関しては,探索空間の枝刈りに必要とされる出現マッチング及び飽和性のチェックに必要とされるノイズ許容トランザクションマッチングをそれぞれGPU上で実装し,これらを既存のGPU版頻出部分グラフ発見アルゴリズムと連動させることで全体の並列化を達成した。 また,単一区間イベント系列を対象としたパターン列挙技術の開発に関しては,既存の区間イベントの列挙手法と単一系列におけるパターンの頻度尺度を利用し,逆探索に基づくアルゴリズムを開発した。加えて,イベントを起こした主体を変数化することで,より表現力の高いパターンの列挙を実現した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
パターンのベクトル化手法に関しては、単語埋め込みを利用した基本的な手法を提案するとともに、現在、後処理による調整やアンサンブル学習など新たな手法の検討に着手している。またベクトル空間の利用技術に関しても、クラスタリングや例外発見、ネットワーク分析など、基本的な利用方法に関しては、その効果を実験的に確認している。 その一方で、ベクトル空間上での新規特徴的パターンの開発に関しては、基礎的な検討は終了しているが、今後十分な実験と検証が必要とされる。
|
今後の研究の推進方策 |
これまで進めてきた新規特徴的パターンの開発を継続し、複数のベクトル空間を同時に考慮することで初めて捉えることのできる特徴的なパターンの開発を目指す。またこれらの考え方を拡張相関ルールへと適用し、ルールの本体部を構成する要素と頭部を構成する要素の距離を考えることで、特徴的なルールを定義する。 一方で、人間による知識発見を支援することを目的に、得られる代表的なパターンやルールの視覚化にも取り組む。パターンが複数のベクトルで表現されるという点を積極的に利用し、ベクトル空間を切り替えることや、次元選択、次元圧縮による低次元化を行い、直観的な視覚化を目指す。
|
次年度使用額が生じた理由 |
参加を予定していた国際会議の時期が3月から5月へと変更になったため、それに係る経費(海外出張費、国際会議参加費等)の執行時期が変更となった。今年度は、研究の更なる促進のため、大学院生による実験補助と実験環境強化のための計算機の購入を予定している。また、海外発表を中心に対外発表を行うと共に、それらを取りまとめ雑誌論文の執筆を行う。
|