研究概要 |
近年,World Wide Web上の検索エンジンを使って様々な調べ物や捜し物をすることが日常的になっている.しかし,Webには統制がないため,必要な情報だけを選別し,複数の情報を結び付けて解を見出す作業はユーザにゆだねられている.この問題を解消するために,既存の情報検索を超える知識検索の技術について研究を行った.本研究が目指す知識検索とは,Webに潜在するにも拘らず,キーワードやカテゴリでは見つけることが難しい「人々の知識や考え」を取り出す作業である. 2010年度は,企業や商品などの評判情報をWebから効率よく検索する手法について研究した.本研究の特長は,Web上の評判情報では「隠語」が使われることが多いことに着目した点にある.本研究は,評判を検索する対象の事物(企業名など)から,人間が考えそうな隠語を自動生成し,その隠語集合を用いてWebを検索する.そのため,隠語が造られるパターンを類型化し,隠語生成を自動化した.しかし,隠語の自動生成は完璧ではなく,人間が使用しないような無意味な文字列が隠語の候補として生成される場合がある.その結果,評判情報の検索精度が低下するといった問題が生じてしまう.この問題を解消するために,正式名称と各隠語候補が出現する文脈を分析し,正式名称と同じような文脈に出現する隠語候補には高いスコアを与える手法を提案した.具体的には,正式名称や隠語候補の周辺に出現する単語の集合を「文脈」としてモデル化し,自然言語処理の分野で開発された文脈類似度によって,各隠語候補のスコアを計算した.評価実験の結果,隠語候補のスコアを計算し,上位の隠語候補だけを用いてWebを検索することによって,評判情報の検索精度を向上させることに成功した.
|