1994 Fiscal Year Annual Research Report

言語データを用いた自然言語処理用シソ-ラスの自動構築に関する研究

Research Project

Project/Area Number	06780301
Research Institution	Tokyo Institute of Technology
Principal Investigator	徳永健伸東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)
Keywords	自然言語処理 / シソ-ラス / 意味分類 / クラスタリング / 知識獲得
Research Abstract	シソ-ラスとは語あるいは概念を体系的に分類した意味分類のひとつであり,自然言語処理に用いる知識のなかでも重要なものである.従来,自然言語処理で用いられてきたシソ-ラスは人手で作られたものであり,収録されている語数も数万のものがほとんどである.人手でシソ-ラルを作成するには以下のような欠点がある. ・作成コストが大きい・作成者の主観に影響される・大規模なものを作成するのが困難である最近,計算機を用いてこのようなシソ-ラスを自動的に構築する研究が注目を浴びてきており,大規模コーパスの整備にともない.次第に成果をあげてきている. 計算機を用いる従来のシソ-ラス構築法として,名詞-動詞の共起データを用いる研究がなされてきた.しかし,この方法では,名詞と動詞の格の関係を考慮にいれていない.そこで本研究では,「名詞-格助詞-動詞」の共起データ(格助詞としてヲ,ニ,ガ,デの4つ)からなるコーパスから,動詞のベクトルの近さに基づく階層ベイジアン・クラスタリングをおこない,名詞シソ-ラスを自動構築した.その際、従来の手法に加え,助詞の格の違いを考慮にいれ,助詞の格ごとにシソ-ラスを作成する手法を提案した.実験の結果,格ごとにシソ-ラスを構築した方が格を考慮しない場合に比べて高い精度が得られることが明らかになり,本手法の有効性を示すことができた. また,名詞のクラスタリングをおこなうさいに,動詞を既存の動詞シソ-ラスの意味分類と置き換えることによって,クラスタリングの計算量をおさえる手法を考え,その有効性を検討した.実験では動詞シソ-ラスとしては分類語彙表を用いた.実験の結果,あらかじめ動詞をまとめることによって,出来上がるシソ-ラスの精度をあまり下げずに計算量を大幅に減らせることを示すことができた.