Research Abstract |
本研究では,人の脳の仕組みを模倣したアプローチにより,この世界に存在するあらゆる事物や概念(事物を抽象化し共通の意味をまとめたもの)に関する知識をWikipediaやWebのデータから抽出することを目的としている. これまでWikipediaやWebのデータから多種多様な事物の間の関係を獲得する研究が行われてきたが,アプリケーションにおいて得られた知識を活用する際,ある事物に関する知識をシステムが持っていなければ,システムはその事物に関する応答を行うことができないという問題があった.そこで,人の脳が未知のものを推測するときに行っている方法を模倣し,概念レベルで関係の学習を行うことにより,ある事物に関する知識を持っていなくても,汎化された概念レベルで意味の推測が可能となる. 具体的には,Wikipeaiaを基盤知識とし,WebのテキストからWikipediaの記事(事物)を検出した後,WordNetと呼ばれる辞書を用いて記事を概念に変換することで,概念レベルでの関係を学習する.これは,事物の共通する性質を表した概念を介して世界の構造を学習するという,我々が日常的に行っている学習方法を模倣することにより実現している.また,関係の出現確率に基づき,統計的な手法を用いてスコア付けを行うことで,単純な出現頻度では抽出できないような,人にとってより典型的であると考えられる概念間の関係を優先的に抽出できる. 未知のものを推測する能力を,決められた命令しか実行できないコンピュータに持たせることは困難な課題である.本研究では,ドメイン非依存で様々な概念間の関係を,Wikipediaを基盤知識としてWebから大規模に抽出している.得られた概念間の関係は1億以上とこれまでにない規模であり,精度に関しても8割後半から9割程度と高い水準を達成している.これらの知識は,コンピュータが未知の事物あるいはそれを含むテキストの意味を推測するための重要な知識となる.
|