2006 Fiscal Year Annual Research Report
大規模テキストからの頻出イベント時系列コーパスの自動構築とWEB時間追跡への応用
Project/Area Number |
16500078
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院医学工学総合研究部, 教授 (30176557)
|
Keywords | データマイニング / 頻出系列 / テキスト / WEB / オンラインアルゴリズム / 新聞記事 / ブラウジング支援 / 時間追跡 |
Research Abstract |
本年度は,大規模テキストからの頻出イベント時系列コーパスの自動構築にむけて以下の3つの課題について研究を行い,成果を得た. 1.緩和法に基づく大規模系列データからの頻出部分系列の高速マィニング 2.情報量と頻度に基づく知的系列データマィニング手法 3.Webアクセスログに対する系列データマィニングーページ滞在時間系列の解析 4.イベント系列コーパス自動生成のための時間系列上の新聞記事中の重要単語の抽出 第1番目の成果は,我々がこれまでに開発したオンライン抽出アルゴリズムはウィンドウ幅無限長の場合の頻出系列を抽出するものであるが,これを緩和問題の高速算法としてもちいて,ウィンドウ幅有限長の条件下における頻出系列の高速抽出アルゴリズムを開発し,実験的評価により有用性を示した.第2の成果は,自己情報に基づく系列の有用性の基準を新しく考察し,系列全体頻度尺度と融合を試みたものである.実際の応用によっては,単に頻出である部分系列はあまり有用な系列とはならない場合があり,それに対処する技術である.対象系列の平均自己情報量および最低自己情報量が系列の絞り込みに有効であり,頻度尺度と組み合わせて高速アルゴリズムを構築した.第3の成果はこれまでの研究成果をWEBアクセスログ解析に応用したもので,ページの閲覧滞在時間を考慮したページ閲覧系列の高速解析を可能にしている.実験的評価によりその有用性を確認している.第4の成果として,成果を新聞記事コーパスからのイベント系列コーパスの自動構築のために,新たに時間系列上の重要単語の判別抽出法を開発し,その有効性を実験的に確認した.大規模新聞記事コーパスに適用し,ィベント系列コーパスの構築を行い,試験的な系列コーパスを得た.
|