研究課題/領域番号 |
21650031
|
研究機関 | 九州大学 |
研究代表者 |
池田 大輔 九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)
|
研究分担者 |
中藤 哲也 九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛 島根大学, 総合理工学部, 助教 (50529609)
|
キーワード | テキストマイニング / 近似文字列照合 / 例外的パターン / フーリエ変換 / 畳み込み演算 / 遺伝子情報処理 / 時系列データ / 予兆発見 |
研究概要 |
本研究の目的は、与えられたデータの大部分ではなく、相対的に少ない部分に対して成立する粒度の細いパターンを発見する手法を構築することである。そのために、その着想となった2つの研究を「パターン発見への写像導入」と「パターン発見への距離空間導入」という観点で捉えなおしている。 パターン発見への写像導入:昨年度までに、近似文字列照合を行う乱択アルゴリズムに対する最適な写像の生成方法の提案を行い、精度評価や高速フーリエ変換部分の高速化等を行ってきた。今年度は、文字列照合をパターン発見へと拡張するために、高速化に用いた高速フーリエ変換(FFT)に着想を得て、FFTによるパターン発見を試みた。しかし、FFTでは位置情報が失われ、パターン発見には不適当であるとの結論を得た。上述の文字列照合には、FFT全体ではなく、その中の畳み込み演算が重要であった。そこで、この演算を用いてパターン発見を行う着想を得て、予備的な実験を行い、良好な結果を得た。 パターン発見への距離空間導入:この目的は「普通」と「そうでない」パターンとの峻別が目的であった。これに対し、エントロピーや相互情報量を元にした指標を検討中であり、より詳細な解析を行う予定である。一方で、一つの指標で峻別すると定型的なパターン(あいさつなど)も同時に得られることが分かり、これらのパターンを区別したいという要求が生じた。これに対し、昨年度提案した「背景集合を用いた例外的なパターン発見」をベースに、「普通」を構成する部分構造(語など)を自動的に発見し、「部分構造の組み合わせによるパターンの発見」を検討した。さらに、この枠組みを自動生成されたスパム検出や、遺伝子配列に適用し、特徴的なパターンが発見できた。「部分構造発見」は、テキストデータ以外にも適用可能であると考え、時系列データに対して適用し、突発的な事象(嵐や地震等)の予兆の発見が可能であることを示した。一般に予兆現象は微少であり、ノイズに埋もれやすく発見が困難である。そこで、データがオフラインで与えられると仮定し、大まかに突発現象の位置を特定してから、特異値分解を元にした手法により予兆を発見できることを示した。
|