本研究では、ユーザの潜在的な検索要求に対応することのできる意味的な検索が可能な検索システムの開発を目指しており、次の項目に主眼をおき研究を進めた。(1)言葉の意味的要素の検討、(2)クラスタリング手法についての検討、(3)並列分散処理システムの構築、(4)ユーザインターフェースの開発、(5)テキスト以外のメディアへの展開である。 (1)では、単語の意味的要素を特徴ベクトルに取り込むために、文書中に現れる出現単語とシソーラスの単語の意味属性を用いた共起行列を生成した。単語同士の共起頻度を利用する従来の共起行列生成では、本来似ている意味の単語が、距離の離れた特徴ベクトルとして表現される可能性があった。シソーラスに分類語彙表を用いて共起行列を生成する手法を提案することで、語の持つ意味的な概念を特徴ベクトルの生成に反映させることができ、単語特徴ベクトルの次元圧縮を図ることができた。 (2)では、学習器にアンサンブル学習が有功であると考え、近年注目を集めているランダムフォレストを利用したところ、高い識別結果が得られた。また、大規模データに対し、リアルタイム・ストリーム処理や並列分散処理といった特徴を持つ機械学習フレームワークであるJubatusを利用した。Jubatus上で、複数の学習アルゴリズムを動かし、それぞれの性能について調べた。(3)では、処理の高速化や大容量のメモリを扱うことができるようにするために、研究設備として購入した複数台の計算機を利用して、管理ノードにWindows HPC Server 2008を用いたクラスタシステムの構築を行い、計算処理の高速化を図った。(4)では、直感的な操作を利用したインタラクティブなインターフェースの開発を行った。(5)では、テキストに限らず、画像や映像、空間情報における検索の可能性を調査し、一定の成果を得ることが出来た。
|