2015 Fiscal Year Annual Research Report
Webコンテンツのメタデータ自動付与に基づくシンボルグラウンディング
Project/Area Number |
25540140
|
Research Institution | Kyoto University |
Principal Investigator |
河原 大輔 京都大学, 情報学研究科, 准教授 (10450694)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | シンボルグラウンディング / 時空間情報 / メタデータ / 曖昧性解消 / 固有表現 / Webコンテンツ / ジオコーディング |
Outline of Annual Research Achievements |
平成27年度は、1) 実世界参照先同定システムの構築・改良、2) メタデータ付与システムの構築・改良、3) 両システムの統合による相補的な解析についての検討を行った。それぞれについての詳細を以下で述べる。 1) 実世界参照先同定システムの構築・改良: 平成26年度に開発したプロトタイプシステムに基づき、テキスト中の固有表現について、それらの実世界参照先を同定するシステムを構築し、改良を行った。本システムは、テキスト中の地名表現に対して、地理座標(緯度・経度)およびWikipediaエントリを返すものである。Twitterデータについて高精度に解析できることを確認しており、頑健な解析ができるシステムとなっている。 2) メタデータ付与システムの構築・改良: 平成26年度に開発したプロトタイプシステムに基づき、Webページに対して、そのページの著者を同定するシステムを構築し、改良を行った。本システムは、固有表現認識、構文解析などの自然言語処理技術を用いるとともに、著者候補のランキング学習を行っており、高い精度で解析できるシステムとなっている。 3) 両システムの統合による相補的な解析についての検討: メタデータの高精度な認識のためには、固有表現認識を高精度に行う必要がある。高精度な固有表現認識のためには、Wikipediaなどの実世界参照先を同定することが重要である。メタデータ付与システムによる解析結果のエラー分析を行い、実世界参照先同定システムを用いることによって、メタデータ付与システムの精度向上に貢献する可能性があることがわかった。
|