2007 Fiscal Year Annual Research Report
Project/Area Number |
07J01864
|
Research Institution | The University of Tokyo |
Principal Investigator |
ボッレーガラ ダヌシカ The University of Tokyo, 大学院・情報理工学系研究科, 特別研究員(DC1)
|
Keywords | Web Mining / 曖昧性解消 / 類似度計算 / 別名問題 / referential ambiguity / polysemy / 情報抽出 / Web検索 |
Research Abstract |
本研究課題である「Webにおける対象物の曖昧性解消」を行うためにはまず単語間の類似度を正確に計算できる必要がある。例えば、Webでは「Apple」という単語は「リンゴ」という意味の他、「コンピューター」の関連で使われることがある。しかし、殆どの英語の辞書では「Apple」のこの意味が記述されておらず、類似度を計算することが難しい。そこで、本研究ではWeb検索エンジンを用いて単語間の類似度を計算するアルゴリズムを提案した。本手法は辞書を必要としないため、辞書に載っていない単語やWeb上のみで現れる単語の新たな使い方(例:コンピューターとしてのApple)も扱うことができるというメリットがある。尚、提案手法を類似度計算のアルゴリズムを評価するために提案されている標準評価データセット(Miller-Charles Benchmark Dataset)で評価したところ高い精度が得られた。更に、本手法を用いて人名に関する曖昧性(Web検索結果における同姓同名人物の自動判別)を解消する方法も提案した。研究成果はWebの分野ではもっとも高レベルな国際会議であるInternational World Wide Web Conferenceで論文(full paper)として採択され発表した。 対象物の曖昧性は「語義の曖昧性(polysemy)」と「照応の曖昧性(refbrential ambiguity)」の2種類である。人物を例にして説明すると、語義の曖昧性は「同一の名前を持つ異なる人物(同姓同名問題)」に対応しており、照応の曖昧性は「複数の名前を持つ同一人物(別名問題)」に対応する。本研究では、後者である別名問題を解決するアルゴリズムを提案した。有名な別名の例として、プロ野球選手の「松井秀喜」は「ゴジラ」として照応される。別名を自動的に抽出できることはWeb検索において極めて重要なことである。例えば、「松井秀喜」に関して情報を知りたい場合に本名で検索してもその別名を使って本人に関して書かれている情報は見つからない。提案したアルゴリズムは本名を入力とし、Web上からその人物の別名を自動的に抽出する。
|
Research Products
(6 results)