研究概要 |
本研究では、大規模テキストからの頻出イベント時系列コーパスの自動構築にむけて,主に以下の課題について研究を行い、成果を得た。 1.系列全体頻度という新しい合理的な尺度の開発 2.ウインドウ幅無限長を対象としたオンライン型の高速な頻出系列抽出アルゴリズムの開発 3.ウインドウ幅有限長を対象とした緩和法に基づく高速な頻出系列抽出アルゴリズム 4.情報量と頻度に基づく知的系列データマイニング手法 5.Webアクセスログに対する系列データマイニング-ページ滞在時間系列の解析 6.イベント系列コーパス自動作成のための時間系列上の新聞記事中の重要単語の抽出 第一番目に挙げた系列全体頻度は,長大な単一の系列中に出現する部分系列の出現頻度を計るものである.逆単調性を満たし,重複数え上げない,極めて合理的で有用な尺度である.第2番目のオンライン抽出アルゴリズムはウインドウ幅無限長の場合を対象とし,第3番目のアルゴリズムは,ウインドウ幅有限長の条件下における頻出部分系列を高速に抽出アルゴリズムである.第4の成果は、情報理論的な系列有用性を新しく考察し、系列全体頻度尺度と融合を試みたものである.第5の成果はこれまでの研究成果をWEBアクセスログ解析に応用したもので,ページの閲覧滞在時間を考慮したページ閲覧系列の高速解析を可能にしている.第6の成果として,成果を新聞記事コーパスからのイベント系列コーパスの自動構築のために,新たに時間系列上の重要単語の判別抽出法を開発し,その有効性を実験的に確認した。大規模新聞記事コーパスに適用し,試験的なイベント系列コーパスの構築を行った.
|