Research Abstract |
本研究は,専門分野に現れた新語の中から,その分野で重要な語として一定の寿命を享受する語を,自動的に特定する手法・モデルの開発を目指すものである。そのような目的のもと,昨年度は英語学術雑誌の本文データを整備したが,本年度はそれらデータに基づく調査結果を集計した。まず専門分野において重要な語として4つのタイプを考えた。即ち,(1)よく用いられ頻度が高い語,(2)文献のトピックになりやすい語,(3)その分野の中心的な概念を表す語から構成される語,(4)特定の文脈に限って現れる語,の4つである。分析ではまず先述の本文データを,発表期間の観点から新旧2つに分け,新旧が重なる期間に初出した語を新語とみなした。そして後半期間において上記4つの特徴を持つ語を,前半期間のデータから予測可能とする手法の開発に取り組んだ。4つの特徴を数値化する尺度としてはそれぞれ,頻度,TFIDF,専門用語抽出研究におけるNakagawaの尺度,同じくHisamitsuの尺度,を用いた。その結果,頻度が高くなる複合語は,前半期間において語構成要素同士の共起度が,初出時にかけて徐々に増加すること,前半期間におけるHisamitsuの値が有意に高いことが判明した。(2)のTFIDFが後半期間に高くなる語は,(1)とも重なるが,前半期間におけるHisamitsuの値が高く,特定の文脈で出現する傾向が強いことが判明した。(3)のNakagawaの値が後半期間に高くなる語は,前半期間における値も既に高いこと,また(4)のHisamitsuの値が後半期間に高くなる語は,前半期間におけるNakagawaの値が有意に低いこと,即ち,初出時は結合力(生産性)の低い語構成要素で作られていることが判明した。複合語の語構成要素に注目すると,高頻度のヘッドと,頻度を増している修飾語という組合せの語が,後半期間において頻度を増すことなどが明らかとなった。
|