2017 Fiscal Year Annual Research Report
Estimation of user's intent and presentation method of search results based on the intent
Project/Area Number |
15K20990
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
欅 惇志 東京工業大学, 情報理工学院, 助教 (00733958)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | タスク指向型情報検索システム / Webクエリ / タスク推定 / タスク難易度 / スコア統合 / コピュラ |
Outline of Annual Research Achievements |
平成 29 年度は,高精度なタスク指向型情報検索システム構築における根幹技術となるタスク分類手法に関して,重大な手がかりとなる 1. Web クエリキーワードの品詞判別手法を提案した.また,2. タスクごとの特性を明らかにするため,タスクごとの検索難易度の調査を行った.更に,複数のタスクを横断した情報要求に対して適切な検索結果を提示することを目的として取り組むコピュラを用いた情報検索に関して,データの分布に依存せずにユーザの求める情報を高精度に提示する手法の提案を行った. 1. Web クエリの持つ a) 語順がランダム,b) 大文字/小文字情報の欠如という性質により,既存の形態素解析による品詞付与の精度は,一般的な文書に対する精度と比較して格段に低いことが問題となっている.そこで,本プロジェクトでは,大規模テキストコーパスに対して事前に形態素解析を行い,それらの単語の組合せに対して付与される尤度の高い品詞組を Web クエリキーワードへ付与する手法の提案を行った.評価実験の結果,既存の形態素解析技術よりも高精度な推定を実現した. 2. タスクごとに異なる検索モデルを適用することで,より高精度な情報検索が実現できるという報告がなされているものの,実際にいずれのタスクがどのような振る舞いを示すのかについては十分に検証されていない.そこで本プロジェクトでは,各検索タスクごとの分析を行い,その結果,各タスクごとに難易度が大きくことなることを発見した. 3. コピュラを用いた情報検索における適合文書のクラスタリングにおいて,距離ベースの手法を用いた場合には,外れ値の影響を強く受ける可能性がある.そこで本プロジェクトでは,密度ベースのクラスタリングを用いることで,より高精度な検索を達成した. これらの技術により,実用的な高精度なタスク指向型情報検索システムの実現に近づいた.
|