現在、多くの情報がインターネット上に公開されるようになり、複数の機関が同種の情報を提供するようになっている。これに伴い、異なる機関が作成した同種の情報を統合的に利用する技術が望まれている。また、近年は企業の統合なども増加し、それにともない、社内情報や顧客情報のようなインハウスデータの統合も必要になってきている。本研究では、システムに求められる統合精度を実現するために必要となる人間の操作コストを最小化するための精度制御型リンケージモデルを構築することを目的とする。 本研究は、制度制御型モデルの構築を類似度モデルの構築と判定モデルの2つの課題に焦点をあてて研究を進めている。類似度モデルについては、木構造データのマッチングを行うための確率的な類似度モデルの構築と訓練データを用いたパラメタ学習アルゴリズムを開発した。このアルゴリズムは、Expectation Maximization法に基づいて、木構造データの類似度モデルのパラメタを推定する。一方、判定モデルについては、能動的なサンプリング法を用いた学習アルゴリズムの検討を行った。
|