本研究は、複数の人間が係わるプロジェクトで生成・収集される各種情報を共有し活用するための情報共有システムの構築法を考案することを目的としている。特に時間情報を考慮した、時系列文書の処理技術に焦点をあてて、情報共有システムを構築することをめざしている。 平成19年度は、まず、大規模な時系列文書モデルを構築するために、文書からの各種の属性を抽出するための情報抽出法の研究を進めた。文書のレイアウトや構文構造に基づいて重要な情報を抽出すための、ページ文法の提案とその効率的な構文解析アルゴリズムを行った。次に、文書に現れる重要な情報を文書間で結び付けるための近似マッチングアルゴリズムの検討をおこなった。この研究では、類似度を計算するための統計的なモデルのパラメタをベイズ学習するためのGibbsサンプリングに基づくアルゴリズムを開発した。開発したアルゴリズムは、Gibbsさらに、時系列文書モデルの基礎をなす潜在トピックに基づいた確率モデルの検討とそのモデルを獲得するためのアルゴリズムの開発をすすめた。
|