2005 Fiscal Year Annual Research Report
大規模テキストからの頻出イベント時系列コーパスの自動構築とWEB時間追跡への応用
Project/Area Number |
16500078
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院・医学工学総合研究部, 教授 (30176557)
|
Keywords | データマイニング / 頻出系列 / テキスト / WEB / オンラインアルゴリズム / 新聞記事 / プラウジング支援 / 時間追跡 |
Research Abstract |
本年度は、大規模テキストからの頻出イベント時系列コーパスの自動構築にむけて以下の3つの課題について研究を行い、成果を得た。 1.大規模時系列データ中の頻出パターンのオンライン型高速抽出アルゴリズム 2.自己情報量基準と系列全体頻度を併用した新しい系列抽出基準 3.新聞記事をマージするための背景類似度の提案と性能評価 第1番目の成果は、我々が昨年開発した系列全体頻度を系列の有用性尺度として用いて、ウインドウ幅が半無限長の場合の極大頻出系列のオンライン抽出計算アルゴリズムを開発した。続いて実際の応用で求められるウインドウ幅が有限長である場合を考察し、空間消費量を極限まで抑えたオンライン近似型の極大頻出系列の高速抽出アルゴリズムを開発した。本研究成果は、データマイニングの分野で最も権威ある国際会議の一つであるIEEE ICDM 2005に採録されるなど、高い評価をうけている。第2の成果は、自己情報に基づく系列の有用性の基準を新しく考察し、系列全体頻度と融合の可能性を考察した。これは、実際の応用によっては、単に頻出である部分系列はあまり有用な系列とはならない場合があり、それへ対処するためのものである。第3の成果は新聞記事の同一化の技術に関するものである。新聞記事コーパスから頻出イベント列コーパスを構築するためには、新聞記事を抽象化し、中身があるレベルで同一と思われる記事はマージする必要がなる。しかし新聞記事は短いために、表層的な情報からはその同一性の判定が困難である。そのため記事の背景を考え、それを用いて同一性の判定を行わせるものである。 次に本手法をWEB時間追跡へ応用するための、基礎研究として以下の研究を行い、成果を得た 4 多重リンクを考慮するハイパーリンク最重要箇所の同定法とブラウジング支援の応用 5.検索隠し味の半自動合成を目指した訓練データの精製
|