研究課題/領域番号 |
25330256
|
研究種目 |
基盤研究(C)
|
研究機関 | 山梨大学 |
研究代表者 |
岩沼 宏治 山梨大学, 医学工学総合研究部, 教授 (30176557)
|
研究分担者 |
山本 泰生 山梨大学, 医学工学総合研究部, 助教 (30550793)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | データマイニング / オンライン型アルゴリズム / 負の相関ルール / 潜在因子発見 / 頻出アイテム集合 / 系列データ |
研究概要 |
平成25年度はまず,負の相関ルール抽出アルゴリズムの高速化技術の開発を行った.これまでの抽出アルゴリズムは全て,データマイニングの第1世代の技術,即ちApriori法などの上昇型計算法に基づいており,現在の技術基準で見れば計算効率が悪い.データ射影に基づく分割統治法は下降型計算を行う第2世代の代表な計算法である.しかし負ルールの抽出ではデータ射影が原理的に不可能であるため,この分割統治型の適用も困難である.そこで本研究では新たに両者を融合した高速計算法を開発した.即ち,まず上昇型計算法で頻出アイテム集合を全て抽出する.次に抽出した頻出アイテム集合の組合せで負ルールとして有効なものを選別する.選別抽出には接尾辞木を用いた下降型の高速な探索計算を行う.接尾辞木の下降型探索は,右否定型 X → ¬ Yの負ルールに対する右極小性条件の判定計算の効率化に極めて有用な性質を持ち,探索木の効果的な枝刈が可能になる.また左否定型¬ X → Yに対しては,ルール確信度の上界関数で逆単調性を満たす関数を利用した探索枝刈法を新たに開発した.実証システムを開発し評価実験を行い,良好な結果を得ている. 負の相関ルールを更に大規模かつ高速に抽出するためには,オンライン型のアルゴリズムを開発することが重要である.そのためには,まず頻出アイテム集合をオンラインで抽出する必要があるが,これまでのところ効果的な手法は知られていなかった.このため我々は,オンライン型圧縮に基づく手法と,残存メモリ容量に適応的に対応する可変誤差保証に基づく2つのオンライン型抽出手法を開発した.それぞれ実証システムを構築し評価実験を行った. 大規模テキストからのイベント系列コーパス生成のための素性抽出に関しては,楽曲宣伝販売活動に着目し,Twitterに出現する楽曲評価や関係イベントの記述文の極性評価について研究を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初に予定した研究計画のうち,最も重要である負の相関ルール抽出アルゴリズムの高速化およびルール圧縮の基礎技術に関しては,前述の実績概要に記述した通り,当初の計画を超えて研究が進んでいる.一方で,仮説推論技術による負ルールの潜在因子の予測に関しては研究が若干遅れており,今後,研究を加速させる必要があると考えられる.大規模テキストからの素性抽出に関しては,任意のテキスト時系列を扱うことは極めて困難であることから,研究方針を応用分野を幾つか限定して研究を進めることに修正し,現在,順次進めている.
|
今後の研究の推進方策 |
今後はまず,負の相関ルール抽出の高速化と高度化に関して研究を進めていく. 負ルール抽出の高速化は大規模な実用問題への適用を考える上で極めて重要である.本研究では,オンライン型の高速抽出アルゴリズムの開発を進めていく予定である.これまでの研究により,負ルールの台集合となる頻出アイテム集合のオンライン抽出の目途は立ったので,この上で接尾辞木を漸近的に更新しながら負ルールを抽出する手法について研究を行っていく予定である.また抽出した負ルールは膨大な数に及ぶと考えられるので,一般ルールの学習に基づくルール圧縮の技術も開発する必要があると考えられる.この圧縮に基づく一般化のオンライン計算法についても,今後研究を進めていく. 負ルール抽出の高度化のためには,抽出したルールの有用性尺度とその効果的な判定計算法について考察を進める必要がある.負ルール抽出の高速化により非常に多くの負ルールの抽出が可能になることからも,負ルールの有用性の判定は極めて重要な問題である.これまで,正の相関ルールでは多くの有用性尺度が研究されているが,負ルールについては系統的な研究は殆ど行われていない.今後,負ルールに対する有用性尺度の一般的な議論を進めると同時に,ルールの有用性の尺度は個々の応用問題によって重要性が大きく変化するので,今後イベント系列コーパスを含めた幾つかの応用問題を想定し,研究を進めていく予定である. 大規模テキストからの素性抽出は,任意のテキスト時系列を対象とすることは極めて困難であることから,今後は,まず楽曲の宣伝販売評価に関係するTwitter文章などに対象を絞り,研究を行っていく予定である.
|
次年度の研究費の使用計画 |
平成25年度内に人工知能学会論文誌(査読付)に発表する予定であった論文(題目:負の相関ルールを抽出する高速トップダウン型アルゴリズム)の原稿作成と学会投稿,および査読審査が若干遅れたために,年度内の論文誌への掲載ができなかった.そのため,論文掲載費用相当額の支出が完了できなかったため,次年度使用額が生じた. 上記の論文の査読審査は完了し,当該論文は採録が決定されている.平成26年度早々に論文誌への掲載される予定であり,その掲載費用として支出する予定である.
|