2006 Fiscal Year Annual Research Report
大規模WEBデータの並列情報自動抽出とマネージメントに関する研究
Project/Area Number |
06F06366
|
Research Institution | Tohoku University |
Principal Investigator |
堀口 進 東北大学, 大学院情報科学研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
PHAN Xuan X. 東北大学, 大学院情報科学研究科, 外国人特別研究員
|
Keywords | データ抽出 / データマイニング / マルチメディアデータ / WEB情報抽出 / 最大エントロピーMaxEnt法 / マルコフモデル |
Research Abstract |
現在、爆発的に普及しているインターネット上の膨大なマルチメディアデータから正確なデータ抽出やデータマイニングは非常に重要な問題である。しかし、従来のテキスト中心の方法では、非構造的なマルチメディアデータから正確なデータ抽出は困難であるためネットワーク型マルチメディアデータからのWEB情報抽出、自動要約や分類の技術が必要とされている。本研究の目的は、様々なレイアウト構造を有し、多数の画像、音声や動画を含むWEBデータから簡潔にWEB情報を抽出する新しい確率グラフモデル方式の考案ならびにその処理の高速化のための新しい並列処理方式を確立することである。 本研究では、先ず、様々なレイアウト構造を有し、多数の画像、音声や動画を含むWEBデータから簡潔にWEB情報を抽出する新しい確率グラフモデル方式の提案を行った。特に、インターネット上の膨大なWEBデータに対して、最大エントロピーMaxEnt法に基づいたデータ領域の特定を行い、その性能評価を行った。その結果、最大エントロピーMaxEnt法のある程度の有用性は示せたが、条件により情報抽出が出来ない場合もあり改良が必要であることが分かった。そこで、最大エントロピーMaxEnt法にマルコフモデルを用いた手法の導入する手法を新たに考案した。本方式は、条件に依存せず効率の良い情報抽出が可能であり、最大エントロピーMaxEnt法に基づいたデータ領域特定性能をより改良できることを明らかにした。マルコフモデルを用いた最大エントロピーMaxEnt法に基づいたデータ領域特定法の性能評価は、データ構造の違いによりその性能が異なるため、今後より一層の詳細な検討が必要である。
|
Research Products
(4 results)