現在、多くの情報がインターネット上に公開されるようになり、複数の機関が同種の情報を提供するようになっている。これに伴い、異なる機関が作成した同種の情報を統合的に利用する技術が望まれている。また、近年は企業の統合なども増加し、それにともない、社内情報や顧客情報のようなインハウスデータの統合も必要になってきている。本研究では、システムに求められる統合精度を実現するために必要となる人間の操作コストを最小化するための精度制御型リンケージモデルを構築することを目的とする。 本年度は、能動学習のフレームワークを用いて、判定器を効率良く構成する方法について研究を進めた。この手法では、複数のSVMを線形に組み合わせたSKMと呼ばれる判定器を用いている。まず、正解データが付与されていないデータの中からサンプリングを行い、ユーザに正解データを問い合わせる候補データセットを作成し、次に複数のSVMの組み合わせ方も考慮して、判定境界に近い候補を選ぶ方法を提案した。次に、各正解データの問合わせ後に、効率よく判定器を再構成するための計算効率の良い判定器の修正アルゴリズムを構築した。
|