2009 Fiscal Year Annual Research Report
大量実テキストデータに潜む少量多品種な部分構造の統計的発見と利用に関する研究
Project/Area Number |
21650031
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 Kyushu University, 大学院・システム情報科学研究院, 准教授 (00294992)
|
Co-Investigator(Kenkyū-buntansha) |
中藤 哲也 九州大学, 情報基盤研究開発センター, 助教 (20253502)
山田 泰寛 島根大学, 総合理工学部, 助教 (50529609)
|
Keywords | テキストマイニング / 近似文字列照合 / 例外的パターン / フーリエ変換 |
Research Abstract |
本研究の目的は、与えられたデータの多くに対して成立する知識ではなく、相対的に少ない部分データに対して成立する粒度の細いパターンを発見する手法を構築することである。そのために、その着想となった2つの研究を「パターン発見への写像導入」と「パターン発見への距離空間導入」という観点で捉えなおす。 「パターン発見への写像導入」に対し、本年度は主に以下の3つの成果が得られた。 (1) 近似文字列照合を行う乱択アルゴリズムの最適な写像の生成方法の提案 (2) 最適な写像により生成された写像の精度に関して、既存手法との実験的な評価 (3) 近似文字列照合を行う乱択アルゴリズムについて、従来高速フーリエ返還(FFT)を用いていた部分に実数値FFTを用いることによる高速化 これらの成果は、従来から研究してきた写像による近似文字列照合の拡張であり、厳密には一致していないパターンの高速発見に役に立つ。 「パターン発見への距離空間導入」に対し、本年度は主に以下の2つの成果が得られた。 (1) 背景集合を用いた例外的なテキストパターン発見手法の提案 (2) 提案手法と既存の例外的な指標(Zスコア)との実験的な比較 これらの成果は背景集合との距離によりパターンを発見しようとする本研究の目的に合致したものであり、従来手法では得られなかったパターンを発見できることを示したものである。 一方で、前者の「パターン発見への写像導入」で得られた結果は、見つけるパターンが与えられると想定しているため、今後自動的にパターンを発見する手法へと拡張する。同様に、後者の例外的なテキストパターン発見も、見つかるパターンがスコア化されていないため、距離空間の導入が今後2年間の課題である。
|
Research Products
(5 results)