大規模WEBデータの並列情報自動抽出とマネージメントに関する研究
Project/Area Number |
06F06366
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 外国 |
Research Field |
Media informatics/Database
|
Research Institution | Tohoku University |
Principal Investigator |
堀口 進 Tohoku University, 大学院・情報科学研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
PHAN H. Xuan 東北大学, 大学院・情報科学研究科, 外国人特別研究員
PHAN Xuan X. 東北大学, 大学院情報科学研究科, 外国人特別研究員
|
Project Period (FY) |
2006 – 2007
|
Project Status |
Completed (Fiscal Year 2007)
|
Budget Amount *help |
¥2,300,000 (Direct Cost: ¥2,300,000)
Fiscal Year 2007: ¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2006: ¥1,100,000 (Direct Cost: ¥1,100,000)
|
Keywords | WEB情報抽出 / 最大エントロピー / 自動化情報抽出 / WEBデータ / 並列計算 / 大規模データ / データ抽出 / データマイニング / マルチメディアデータ / 最大エントロピーMaxEnt法 / マルコフモデル |
Research Abstract |
インターネット上の非構造的で膨大なマルチメディアデータから、正確なデータ抽出やマイニングを行うには、ネットワーク型マルチメディアデータからのWEB情報抽出、自動要約や分類の技術が必要とされている。我々は、最大エントロピーMaxEnt法に基づいたデータ領域の特定を行い、条件モデル法により分類を行う自動化情報抽出について検討し、その有効生を明らかにした。しかし、最大エントロピーMaxEnt法は条件により情報抽出が出来ない場合がある。そのため、多くのWEB上の概念的存在やエンティティや同じカタログに分類されるWEB環境上に実在するコンテキスト間の潜在的意味に注目し、テキスト解析を行った。その結果、潜在的意味法を用いれば最大エントロピーMaxEnt法で効率よく情報抽出ない場合にもきることを明らかにした。 次に、WEBデータやHTMLデータからの情報抽出が可能なCRF(Conditional Random Filed)を、大規模データに適応した場合に問題となる膨大な処理時間について詳細に検討した。CRFを高速化するために並列計算学習法を考案し、大規模データ(CoNLL2000-L, CV test of WSJ)に対して並列学習を行った。その結果、約45台のプロセッサ数に対してスケーラブル処理速度向上が得られることを示した。特に、200回の繰り返しが必要なCoNLL2000-L(200)データに対して、90台のプロセッサで並列処理を行い、約80倍の処理性能を達成した。
|
Report
(2 results)
Research Products
(6 results)