2009 Fiscal Year Annual Research Report
コーパスを利用した科学技術分野でのシソーラス構築と関連文書抽出への利用
Project/Area Number |
20500127
|
Research Institution | University of Yamanashi |
Principal Investigator |
鈴木 良弥 University of Yamanashi, 大学院・医学工学総合研究部, 准教授 (20206551)
|
Keywords | シソーラス / コーパス / 上位 / 下位概念 / 同属語 / 単語間類似度 |
Research Abstract |
本研究は,新聞記事や特許検索文コーパスを利用してシソーラス(類語辞典)を構築し,そのシソーラスを関連文書の抽出に役立てることを目的にしている.具体的には,新聞記事や特許検索文から関連単語対を抽出し,抽出された関連単語対を「同義語」,「上位語」「下位語」,「同属語」などに分類し,単語対から部分木を作成する.部分木の信頼性も考慮しながらシソーラスを構築する. 本研究の特色・意義は以下の2点に集約できる. 1.コーパスを基に自動的にシソーラスを構築するため,コーパスを集められればどの分野でも利用可能である. 2.普通名詞だけでなく,固有名詞もシソーラスに登録できる. 21年度は前年度に行った固有名詞の同属語と上位語の抽出の結果を用いて,既存の専門用語シソーラスの拡張を行った.具体的にはEDRの専門用語辞典(情報処理)をコアシソーラスとして,特許公報文コーパスを用いて単語間類似度を計算し,コアシソーラスに含まれない単語をシソーラスの階層的な意味素性に追加した. 専門用語は一般語に比べて,(1)出現頻度が少ない.(2)構文的役割が偏っている.などの特徴があり,統語情報を利用した意味特定は難しいが,まず複数の同属語をコーパスから抽出することにより新語をシソーラスの階層的な意味素性に追加する手法を提案した.また提案手法の改良のために動詞の自動分類の研究,提案手法にヒントを得たオノマトペ用例抽出の研究を行った. これまで一般語のシソーラス拡張を行う研究は存在したが,本研究ではより難しい専門用語辞書のシソーラス拡張手法を提案しており,本研究の学術的意義は大きいと考える.
|