本研究ではまず、専門分野テキストコーパスに出現する複合語用語を、高い精度で網羅的に抽出する手法を確立した。日本語名詞形態素の内で、複合語構成上制約のあるものを整理し、また、形態素解析誤りの影響を受けやすい部分からの候補抽出を避けることによって、一定の抽出精度を保ちながら、コーパス内出現頻度の低いものまで網羅的に用語を抽出することが可能となる。本研究ではまた、複合語の入れ子関係を用いた用語の階層的構造化と、部分研究領域に強く関連する形態素を選択し、これらの形態素を要素として含む複合語を選択することにより、部分研究領域に関連づけた用語体系化が可能となる事を明らかとした。
|