研究課題/領域番号 |
06F06366
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 外国 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 東北大学 |
研究代表者 |
堀口 進 東北大学, 大学院・情報科学研究科, 教授
|
研究分担者 |
PHAN H. Xuan 東北大学, 大学院・情報科学研究科, 外国人特別研究員
PHAN Xuan X. 東北大学, 大学院情報科学研究科, 外国人特別研究員
|
研究期間 (年度) |
2006 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
2,300千円 (直接経費: 2,300千円)
2007年度: 1,200千円 (直接経費: 1,200千円)
2006年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | WEB情報抽出 / 最大エントロピー / 自動化情報抽出 / WEBデータ / 並列計算 / 大規模データ / データ抽出 / データマイニング / マルチメディアデータ / 最大エントロピーMaxEnt法 / マルコフモデル |
研究概要 |
インターネット上の非構造的で膨大なマルチメディアデータから、正確なデータ抽出やマイニングを行うには、ネットワーク型マルチメディアデータからのWEB情報抽出、自動要約や分類の技術が必要とされている。我々は、最大エントロピーMaxEnt法に基づいたデータ領域の特定を行い、条件モデル法により分類を行う自動化情報抽出について検討し、その有効生を明らかにした。しかし、最大エントロピーMaxEnt法は条件により情報抽出が出来ない場合がある。そのため、多くのWEB上の概念的存在やエンティティや同じカタログに分類されるWEB環境上に実在するコンテキスト間の潜在的意味に注目し、テキスト解析を行った。その結果、潜在的意味法を用いれば最大エントロピーMaxEnt法で効率よく情報抽出ない場合にもきることを明らかにした。 次に、WEBデータやHTMLデータからの情報抽出が可能なCRF(Conditional Random Filed)を、大規模データに適応した場合に問題となる膨大な処理時間について詳細に検討した。CRFを高速化するために並列計算学習法を考案し、大規模データ(CoNLL2000-L, CV test of WSJ)に対して並列学習を行った。その結果、約45台のプロセッサ数に対してスケーラブル処理速度向上が得られることを示した。特に、200回の繰り返しが必要なCoNLL2000-L(200)データに対して、90台のプロセッサで並列処理を行い、約80倍の処理性能を達成した。
|