2011 Fiscal Year Annual Research Report
テキスト中のエンティティ間関係に注目するウェブ知能化
Project/Area Number |
23300052
|
Research Institution | The University of Tokyo |
Principal Investigator |
石塚 満 東京大学, 大学院・情報理工学系研究科, 教授 (50114369)
|
Keywords | Webインテリジェンス / 関係検索 / テキスト含意認識 / 概念意味表現言語 / 意味計算基盤 / 意味役割認識 / 談話関係 / 関係類似性 |
Research Abstract |
Webテキスト情報のエンティティ間の関係に注目したWeb知能化に向けた研究開発を行った.その一つが潜在関係検索エンジンの開発であり,これは{(Japan, Mt.Fuji)(Germany, ?)}といったクエリーに対し,{?=Zugspitze}といった検索結果をランキングと証拠文付きで返す.数秒で結果を返す必要性から,事前にインデックス化を行っている.全ての英文Wikipedia中の固有名詞エンティティ・ペアについてインデックス化を行っており,670万のエンティティ,3000万のエンティティ・ペアをインデックス化している.これによって,固有名詞のペアというように検索範囲には限定があるものの,世界でも非常にユニークな関係検索エンジンを,一般にも使用できる形で実現した.今後に向けて,言語横断検索,否定文の処置法,証拠文のランキング機能,固有名詞以外への拡張法についても研究した. 文間の関係の中では,特にテキスト含意認識(Text Entailment Recognition)について研究し,WordNetでの語彙の類似性を利用する新しい含意判定法について成果を得た.この中途段階のシステムをもって2011年11月に米国NISTで行われたRecognizing Textual Entailment Challenge(RTE-7)コンテストに参加し,世界第2位を獲得した. 個別言語独立でコンピュータにも意味が把握できる共通的な概念記述言語CDL(Concept Description Language)に関しては,語義曖昧性解消によるテキストからCDLへの半自動変換法,CDLデータの効率的な意味的検索の実現法について研究を進めた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
潜在関係検索エンジンについては,全ての英文Wikipedia中の固有名詞エンティティ・ペアについてインデックス化を行っており,670万のエンティティ,3000万のエンティティ・ペアをインデックス化し,数秒で検索可能にした.この日英の言語横断検索もほぼ実現している.文間の関係の一種であるテキスト含意認識について,世界コンテストで第2位を得るような成果を挙げた.概念記述言語CDL(Concept Description Language)については,特にCDLデータの効率的な意味的検索法を開発した.
|
Strategy for Future Research Activity |
(i)潜在的検索エンジンについては,現在固有名詞ペアに限っている対象を,一部一般名詞も含めるようにする,否定文処理機能の導入による精度向上を図る,等の機能拡張を行う. (ii)逐次共クラスタリングについては,片側のエンティティを固定し,関連する全ての関係を抽出するセミ・オープン関係抽出に適応し,効果を実証する. (iii)CDLについては,自然言語テキストからCDLの半自動変換の機能向上を継続して行う.並行してWikipediaテキストのCDL化の拡張を推進する.
|