2011 Fiscal Year Annual Research Report
ウェブにおけるエンティティ間の関係検索に関する研究
Project/Area Number |
22800010
|
Research Institution | The University of Tokyo |
Principal Investigator |
ボレガラ ダヌシカ 東京大学, 大学院・情報理工学系研究科, 講師 (10581712)
|
Keywords | 関係抽出 / ウェブ工学 / データマイニング / ドメイン / 転移学習 / 自然言語処理 / 人工知能 / 機械学習 |
Research Abstract |
本研究課題の第2年度目(最終年度)であった平成23年では主に研究成果を論文にまとめ対外発表を行った.尚,研究の成果であるエンティティ間の意味的関係検索エンジンを一般公開した.(http://www.milresh.com/)開発した潜在関係検索エンジンを評価するために様々なエンティティを含む関係クエリーセット(評価用データセット)を作成した。関係検索エンジンの評価には一般的にウェブ検索エンジンの評価のために広く用いられている評価尺度であるMean Average Precision(MAP)とMean Reciprocal Rank(MRR)を用いた.更に,言語跨るような関係検索もできるように開発した検索エンジンを拡張させた。例えば,(Microsoft,BillGates),(トヨタ,?)のように最初のエンティティペアを英語で指定し,後者のエンティティを日本語で指定した場合,検索結果として「豊田佐吉」という日本語で書かれた人名を返すようにした.まず,最初のエンティティペアでWeb検索を行い,その2つのエンティティが共起している文脈から様々な語彙パターンを抽出した.次に,その語彙パターンで第三個目のエンティティ(上記の例では「トヨタ」)を代入し,再び検索することで第4個目のエンティティに関する候補が抽出できる.言語を跨る関係検索の場合は語彙パターンを翻訳する必要があるため,既存の機械翻訳エンジン(API)を用いた.尚,抽出された検索結果の候補を順序付けて表示するためのランキング尺度も構築した,本研究の成果を国際会議American Association for Artificial Intelligence(AAAI)にて口頭発表を行った.尚,論文誌ACM Transactions on Speechand Language Processing(TALIP)にも採択されている.
|
Research Products
(5 results)