2015 Fiscal Year Annual Research Report
コピュラに基づく確率的な情報検索・情報推薦システムの実現と高精度化
Project/Area Number |
15H02701
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
宮崎 純 東京工業大学, 情報理工学(系)研究科, 教授 (40293394)
|
Co-Investigator(Kenkyū-buntansha) |
波多野 賢治 同志社大学, 文化情報学部, 教授 (80314532)
中村 匡秀 神戸大学, 大学院システム情報学研究科, 准教授 (30324859)
欅 惇志 東京工業大学, 情報理工学(系)研究科, 助教 (00733958)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 情報検索 / コピュラ / スコアリング / 情報推薦 |
Outline of Annual Research Achievements |
索引語やキーワードなどのテキスト情報の適合性やアイテム、ユーザの嗜好や状況等を周辺分布としてモデル化して入力とし、コピュラ関数によりこれらの入力間の因果関係を考慮して、出力である適合情報の分布を表現する同時確率分布を導き、適合理由を直観的に表現可能な、新しい情報検索・情報推薦システムの提案を目的としている。 本年度は、複数の適合度尺度をコピュラにより統合し、高精度の検索を実現するための研究を行った。既存のコピュラを用いた統合方式は、コピュラによって推定された適合文書を単峰の同時分布を用いて適合度を統合しているが、単峰性ゆえ局所的に相関が高い箇所が複数存在するような複雑な関係を捉えることが困難であった。そこで、多峰的な分布モデル、すなわち混合コピュラモデルにより推定した適合文書の同時分布を用いて、適合度を統合する方式を提案した。この提案手法は、適合する情報の密度が高い箇所が複数あり、かつそれぞれが異なるパラメタを持つコピュラで依存関係を表現する場合に有効である。この混合コピュラは、複数の単峰性コピュラの重み付き線形和により同時分布を構成する。 約4400 万件のWeb 文書と50 個のクエリを用いて、BM25とクエリ尤度モデルの適合度の統合を行うことで、提案方式の有効性を明らかにした。その結果、線形結合や既存の単峰コピュラによる統合方式よりも、提案する混合コピュラを利用した方式が、より高い検索精度を示すことを明らかにした。 この他、順次研究を進めていく多数のセンサー情報を利用したコンテキストアウェアな情報推薦サービスの研究の準備も進めており、分散環境下でのコンテキストアウェアなサービスの管理方法とそのフレームワークの構成方法を明らかにしている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
既存の単峰性コピュラに基づく高精度情報検索の研究では、精度が高くなる場合とそうでない場合が存在することは示されていたが、その原因は明らかではなかった。本研究では、Web文書とクエリセットを利用して、BM25とクエリ尤度モデルの二つの尺度を利用して適合Web文書の分布を調べた。その結果、複数の密度の高い場所が存在し、明らかに単峰モデルでは表現できないことを示した。 このことから、複数のコピュラを利用して、それらを混合してより正確に分布をフィッティングさせることで解決を試みた。実験結果から、混合コピュラにより高い精度で検索可能であることを示している。混合コピュラを構成する際には、既存のクラスタリング手法を利用でき、また混合ガウスモデルと同等の手法で重ね合わせが可能な点で、実装が容易である点でも優れている。 一方、文書の読みやすさという適合性尺度を追加し、コピュラを利用してより高度な高精度検索を試みている。現在のところ、既存の読みやすさの尺度がWeb文書ではうまく働かないことが判明しており、現在改良の検討を行っている。しかしながら、コピュラにより高度な情報検索が可能となる例を示すことは非常に有効である。 以上の成果から総合すると、現在の達成度はほぼ目標通りと判断できる。
|
Strategy for Future Research Activity |
今後は、現在研究を進めている、読みやすさの尺度を加えた高精度な検索を、コピュラを利用して実現する予定である。検索質問に対して、読みやすさと文書の適合度は直交しており、適合文書の分布は複雑となることが見込まれる。このような場合でもコピュラを利用することで、高精度な検索が可能であることを明らかにする予定である。 また、コピュラを利用した検索モデルでは、Top-kクエリが行うことが難しいと予想している。これは、コピュラを利用した場合、各適合度尺度の線形和で全体の適合度スコアが計算できないため、既存のTop-kアルゴリズムの前提である単調性を満たさないためである。このため、コピュラ特有のTop-kアルゴリズムを新たに開発していく予定である。 これらに加えて、情報推薦へコピュラを利用したモデルを適用することを進めている。具体的には多数のセンサー情報から、コンテキストに対する行動パターンを、コピュラを利用して推定することで、在宅支援などの応用を検討している。既に、実センサーを多数配置して、ユーザの行動や環境情報のモニタリングを行ってデータを収集しており、これらを利用してコンテキストアウェアな高精度の推薦サービスの構成方法を検討する予定である。
|