研究課題/領域番号 |
21650031
|
研究機関 | 九州大学 |
研究代表者 |
池田 大輔 九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)
|
研究分担者 |
中藤 哲也 九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛 島根大学, 総合理工学部, 助教 (50529609)
|
キーワード | テキストマイニング / 近似文字列照合 / 例外的パターン / フーリエ変換 / 畳み込み演算 / 遺伝子情報処理 / 時系列データ / 予兆発見 |
研究概要 |
本研究の目的は、与えられたデータの大部分ではなく、相対的に少ない部分に対して成立する粒度の細いパターンを発見する手法を構築することである。そのために、その着想となった従来の研究を「パターン発見への写像導入」と「パターン発見への距離空間導入」という観点で捉えなおした。 パターン発見への写像導入:これまでに、近似文字列照合を行う乱択アルゴリズムに対する最適な写像の生成方法の提案を行い、精度評価や高速フーリエ変換部分の高速化等を行ってきた。今年度は、昨年度に予備実験を行った畳み込み演算によるパターン発見を用いて、剽窃検出の実験を行い、低頻度でも剽窃が適切に発見できることを示した。また、この際、数文字を一つにまとめて写像する処理が本質的であることを示した。 パターン発見への距離空間導入:この目的は「普通」と「そうでない」パターンとの峻別が目的であり、距離を導入することを想定していた。この目的に対し、昨年度までの成果により、距離ではなく、「普通」を構成する部分構造(語など)の自動的に発見し、「部分構造の組み合わせによるパターンの発見」が有効かもしれないとの知見を得ていた。今年度は、これをさらに進めゲノム配列やWeb上の文書でその有効性を確認した。一般に、個々のデータ間の近さを距離として厳密に定めることは困難だが、提案手法はよりシンプルで汎用性が高いと期待できる。実際、部分構造の発見をグラフデータのクラスタリングに適用し、従来手法よりノイズに強いことを示した。? 写像によるパターン発見でも複数文字をまとめる、つまり、部分構造を求めることの重要性が確認された。部分構造の発見によるパターン発見は、当初の計画(距離空間によるパターンの識別)とは異なるが、萌芽研究として重要な知見を得られた。
|