研究概要 |
本研究は,新聞記事や特許検索文コーパスを利用してシソーラス(類語辞典)を構築し,そのシソーラスを関連文書の抽出に役立てることを目的にしている.具体的には,新聞記事や特許検索文から関連単語対を抽出し,抽出された関連単語対を「同義語」,「上位語」「下位語」,「同属語」などに分類し,単語対から部分木を作成する.部分木の信頼性も考慮しながらシソーラスを構築する. 本研究の特色・意義は以下の2点に集約できる.(1) コーパスを基に自動的にシソーラスを構築するため,コーパスを集められればどの分野でも利用可能である.(2) 普通名詞だけでなく,固有名詞もシソーラスに登録できる. 20年度は特に固有名詞の同属語と上位語の抽出について研究した.固有名詞は一般名詞と比較すると新聞記事内での出現回数が少なく,関連単語対の精度,細分類の精度を向上させることが難しい.本研究では,まず対象固有名詞の同属語を集め,集めた同属語を対象固有名詞に書き換え,関連単語対の再抽出を行うことで,対象固有名詞の出現回数が少なくても精度良くその単語の上位語である普通名詞を抽出する手法について研究した.2009年4月に行われたAISB'09の併設ワークショップ“Workshop on Matching and Meaning"で新聞記事データに対して固有名詞の上位概念と同属語の抽出方法を提案し,研究成果を発表した. これまで普通名詞間の関係を調べる研究は存在したが,本研究ではより難しい固有名詞に対してその上位語の抽出方法を提案しており,本研究の学術的意義は,大きいと考える.
|