Budget Amount *help |
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2012: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2010: ¥700,000 (Direct Cost: ¥700,000)
|
Research Abstract |
検索する情報の単位としてキーワードや文書ではなく,オブジェクトを対象としたアナロジーに基づく情報検索を行った.オブジェクトとは論文や商品,人物など,ある具体的もしくは抽象的な対象のことである.オブジェクトは情報を概念ごとに集約したものであると考えられ,情報の単位として大きく,多くの属性を持ち,他のオブジェクトとの関係も明確であるため,本研究の検索対象として適していると考えられる.対象とするオブジェクトの1例として飲食店を採用した.これは,特に初めて訪れた場所における飲食店の検索は,ユーザの知らない分野に対する検索であり,困難かつ日常的に存在する問題であると考えられるためである.アナロジーを利用すれば,知らない地域の飲食店情報を,地元の知っている地域の飲食店情報を例示することによって検索することが可能である.より自然な表現を用いれば,「京都における店Aは銀座におけるどの店であるか」という検索を可能にすることができる.これを実現するために,飲食店情報サイトから店舗情報を取得し,その属性に基づいた関係の発見を行い,アナロジーによる検索を可能とした. 関係は我々が提案した相対的集約点との距離によって表現される.例えば,相対的集約点には,ある地域における平均的な店,最も高い店,頻出するジャンルの店などが選ばれる.それらの集約点を利用することにより,我々はある店がある地域においてどのような関係にあるのか(例えば,その店がその地域で平均的な店か相対的に高い店か)知ることができる.関係の類似性によって,アナロジーが可能になり,「京都における店Aは銀座におけるどの店であるか」という検索が可能になる. 未知分野に対する情報検索タスクの評価のために,我々は上記のオブジェクトを対象としたアナロジー検索のためのデータセットを構築した.特に,オブジェクトとしては飲食店を採用し,5つの地域・20の検索意図を対象にした.我々は1,000人を対象にしたオンラインアンケートによって,それぞれの地域におけるそれぞれの検索意図で適合する飲食店を判定してもらい,検索対象データ,クエリ,適合性判定情報をまとめてデータセットとし公開している.オブジェクトを対象としたアナロジー検索では,例を選択する地域と検索を行う地域の組合せがあるため,合計で400通りの検索を考えることができる.このデータセットによって,我々はオブジェクトを対象としたアナロジーに基づく検索を評価し,その成果は情報検索において最も権威ある国際会議SIGIRにて発表済みである.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度までに当初の目的であった「大規模テキストコーパスを解析することによる類似関係発見」「オブジェクト・マルチメディアを対象としたアナロジーに基づく検索」「未知分野に対する情報検索タスクの評価」を達成し,おおむね順調に進展したと考えられる.また,研究成果としても2本の学術論文誌,6本の国際学会論文を残している.そのため,これまでの研究はおおむね順調に進展したといえる.
|