2004 Fiscal Year Annual Research Report
大規模テキストからの頻出イベント時系列コーパスの自動構築とWEB時間追跡への応用
Project/Area Number |
16500078
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院・医学工学総合研究部, 教授 (30176557)
|
Keywords | データマイング / 頻出系列 / テキスト / WEB / オンラインアルゴリズム / 新聞記事 / プラウジング支援 / 時間追跡 |
Research Abstract |
本年度は、まず大規模テキストからの頻出イベント時系列コーパスの自動構築にむけて以下の3つの課題について研究を行い、成果を得た。 1.単一の長大なデータ系列上の系列パターンの出現尺度とその逆単性 2.大規模時系列データ中の頻出パターンのオンライン抽出アルゴリズム 3.新聞記事のイベント想起語群の自動生成 第1番目の成果である単一データ系列上の部分系列の出現尺度は、これまで殆ど研究されていなかった技術である。これまで逆単調性を満たしかつ重複数え上げが無い出現尺度は提案されていなかったが、今回我々が初めて、系列全体頻度という前述の2つの性質をもつ具体的な尺度の提案を行った。計算量的観点からも系列全体頻度は非常に効率的であることを理論的および実験的に示している。本研究成果はFIT2004優秀論文賞を受賞するなど、高い評価を頂いている。第2番目の成果は、系列全体頻度を用いた場合の極大頻出系列のオンライン抽出計算アルゴリズムを開発したものである。本アルゴリズムは大規模時系列データからのイベントの頻出時系列パターンの抽出を飛躍的に高速化する可能性を持つものであり、他に例の無い手法である。理論的考察の他に評価実験を通して実証的に高速性を確認している。第3の成果は、大規模時系列テキストデータとして、新聞記事のコーパスを用いた場合に、各新聞記事中のイベントをコンパクトに分かりやすく表現する新しい手法を提案したものである。実証実験の結果、既存の手法よりも良好な結果をえている。 次に本手法をWEB時間追跡へ応用するための、基礎研究として以下の研究を行い、成果を得た。 4.多重リンクを考慮するハイパーリンク最重要箇所の同定法とブラウジング支援の応用 5.診療系関連語彙テンプレートの自動生成とWebページの自動統合
|
Research Products
(6 results)